SDXL Turbo : un modèle de génération de texte en image en temps réel
SDXL Turbo : un modèle de génération de texte en image en temps réel


Communiqué de Stability AI
Points clés à retenir:
- SDXL Turbo atteint des performances de pointe grâce à une nouvelle technologie de distillation, permettant la génération d’images en une seule étape avec une qualité sans précédent, réduisant le nombre d’étapes requis de 50 à une seule.
- Consultez notre document de recherche pour plus de détails techniques spécifiques concernant la nouvelle technique de distillation du modèle qui exploite une combinaison d’entraînement contradictoire et de distillation de scores.
- Téléchargez les poids et le code du modèle sur Hugging Face actuellement publié sous une licence de recherche non commerciale qui permet une utilisation personnelle et non commerciale.
- Testez SDXL Turbo sur la plateforme d’édition d’images de Stability AI Clipdrop avec une démonstration bêta des capacités de génération de texte en image en temps réel.
Aujourd’hui, nous lançons SDXL Turbo, un nouveau mode texte-image. SDXL Turbo est basé sur une nouvelle technique de distillation appelée Adversarial Diffusion Distillation (ADD), qui permet au modèle de synthétiser les sorties d’image en une seule étape et de générer des sorties texte-image en temps réel tout en conservant une haute fidélité d’échantillonnage. Pour les chercheurs et les passionnés intéressés par les détails techniques, notre document de recherche est disponible ici. Il est important de noter que SDXL Turbo n’est pas encore destiné à un usage commercial.
Avantages de la distillation par diffusion contradictoire
Présentant de nouvelles avancées dans les technologies de modèles de diffusion, SDXL Turbo itère sur la base de SDXL 1.0 et implémente une nouvelle technique de distillation pour les modèles texte-image : la distillation par diffusion contradictoire. En intégrant ADD, SDXL Turbo bénéficie de nombreux avantages partagés avec les GAN (Generative Adversarial Networks), tels que les sorties d’images en une seule étape, tout en évitant les artefacts ou le flou souvent observés dans d’autres méthodes de distillation. Le document de recherche SDXL Turbo détaillant la nouvelle technique de distillation de ce modèle est disponible ici.
Avantages en termes de performances par rapport aux autres modèles de diffusion
Pour effectuer la sélection pour SDXL Turbo, nous avons comparé plusieurs variantes de modèles différentes (StyleGAN-T++, OpenMUSE, IF-XL, SDXL et LCM-XL) en générant des sorties avec la même invite. Les évaluateurs humains se sont ensuite vu montrer deux résultats au hasard et ont été chargés de choisir le résultat qui suivait le plus étroitement la direction de l’invite. Ensuite, un test supplémentaire a été réalisé avec la même méthode pour la qualité de l’image. Lors de ces tests à l’aveugle, SDXL Turbo a réussi à battre une configuration en 4 étapes de LCM-XL en une seule étape, ainsi qu’une configuration en 50 étapes de SDXL en seulement 4 étapes. Avec ces résultats, nous pouvons voir SDXL Turbo surpasser un modèle multi-étapes de pointe avec des exigences de calcul considérablement inférieures sans sacrifier la qualité de l’image.
De plus, SDXL Turbo apporte des améliorations majeures à la vitesse d’inférence. Sur un A100, SDXL Turbo génère une image 512 x 512 en 207 ms (encodage rapide + une seule étape de débruitage + décodage, fp16), où 67 ms sont pris en compte par une seule évaluation directe UNet.
Explorez SDXL Turbo avec Clipdrop
Pour tester les capacités de ce nouveau modèle, visitez la plateforme d’édition d’images de Stability AI, Clipdrop, pour une démonstration bêta de la génération d’images en temps réel de SDXL Turbo. Il est compatible avec la plupart des navigateurs et est actuellement disponible pour un essai gratuit.






