Publicité

Imagen by Google
Imagen by Google
Imagen est un modèle de diffusion texte-image doté d'un degré de photoréalisme sans précédent et d'un niveau profond de compréhension du langage. Imagen s'appuie sur la puissance des grands modèles de langage de transformateur pour comprendre le texte et s'appuie sur la force des modèles de diffusion pour la génération d'images haute fidélité. La découverte clé est que les grands modèles de langage génériques (par exemple T5), pré-entraînés sur des corpus contenant uniquement du texte, sont étonnamment efficaces pour coder du texte pour la synthèse d'images : l'augmentation de la taille du modèle de langage dans Imagen améliore considérablement à la fois la fidélité des échantillons et l'alignement image-texte. plus que d’augmenter la taille du modèle de diffusion d’image.
Voter :













