PIXART-δ : la nouvelle ère de la synthèse texte-image ?
PIXART-δ : la nouvelle ère de la synthèse texte-image ?


Dans le contexte dynamique actuel des modèles de conversion texte-image, la demande de visuels de haute qualité n’a jamais été aussi forte. Cependant, l’atteinte de ce niveau d’excellence a souvent nécessité des formations gourmandes en ressources et des vitesses d’inférence lentes, limitant leur utilité en temps réel. En réponse à ces défis, nous sommes ravis de dévoiler PIXART-δ, une avancée révolutionnaire qui intègre de manière transparente les modèles de cohérence latente (LCM) et un module ControlNet personnalisé au cadre PIXART-α existant.
PIXART-α, réputé pour sa formation efficace et ses capacités supérieures de génération d’images, constitue la base solide sur laquelle repose PIXART-δ. Ce qui distingue PIXART-δ est son intégration de LCM, qui accélère considérablement le processus d’inférence, permettant la génération d’images de haute qualité en seulement 2 à 4 étapes sur des modèles de diffusion latente (MLD) pré-entraînés. Cette amélioration remarquable permet à PIXART-δ d’atteindre une vitesse d’inférence étonnante de 0,5 seconde par image 1024 × 1024 sur un GPU A100, marquant une amélioration remarquable de 7 fois par rapport à son prédécesseur, PIXART-α.
L’incorporation de ControlNet, initialement conçu pour les architectures UNet, a posé un défi unique lorsqu’il a été appliqué à des modèles basés sur Transformer comme PIXART-δ. Pour relever ce défi, leur équipe dédiée a conçu une architecture pionnière ControlNet-Transformer, garantissant une intégration transparente tout en préservant l’efficacité de ControlNet dans la gestion des informations de contrôle cruciales. La conception proposée applique stratégiquement la structure ControlNet aux N blocs de base initiaux du transformateur, ce qui entraîne des améliorations substantielles de la contrôlabilité et des performances globales.
Le processus de formation est encore optimisé grâce à la distillation à cohérence latente (LCD), une itération évoluée de l’algorithme original de distillation à cohérence (CD). Leur algorithme, décrit dans la section Algorithme qui l’accompagne, intègre un guidage sans classificateur (CFG), dans lequel les modèles Enseignant, Étudiant et EMA fonctionnent comme « débruiteurs » pour le solveur ODE. L’algorithme LCD innovant démontre son efficacité, étayée par des évaluations rigoureuses utilisant les scores FID et CLIP comme références de performances.
L’une des caractéristiques remarquables de PIXART-δ est son efficacité de formation exceptionnelle. Il subit avec succès le processus de distillation dans les limites d’une contrainte de mémoire GPU de 32 Go, prenant en charge des résolutions d’image jusqu’à 1024 × 1024. Cette efficacité remarquable garantit que PIXART-δ peut être entraîné sur des GPU grand public, élargissant considérablement son accessibilité à un public plus large!
En ce qui concerne la vitesse d’inférence, PIXART-δ surpasse les méthodes comparables telles que SDXL LCM-LoRA, PIXART-α et la norme SDXL sur diverses plates-formes matérielles. Avec seulement quatre étapes, PIXART-δ conserve une avance constante en termes de vitesse de génération, soulignant son efficacité par rapport aux 14 et 25 étapes requises respectivement par les normes PIXART-α et SDXL.
L’intégration de ControlNet dans PIXART-δ implique le remplacement de la convolution zéro d’origine par une couche linéaire zéro spécialement conçue pour les architectures Transformer. La conception ControlNet-Transformer applique sélectivement ControlNet aux N blocs de base initiaux, obtenant ainsi une intégration harmonieuse qui améliore la contrôlabilité et les performances globales.
Une étude d’ablation approfondie sur ControlNet-Transformer démontre sans équivoque sa supériorité, mettant en évidence une convergence plus rapide et des performances améliorées dans divers scénarios. Bien que des résultats satisfaisants soient obtenus avec N = 1 pour la plupart des scénarios, il convient de noter qu’une augmentation des performances est observée dans des conditions de bord difficiles à mesure que N augmente.
L’analyse de l’impact des étapes de formation sur ControlNet-Transformer (N = 13) révèle une convergence rapide, particulièrement visible dans l’amélioration de la qualité des contours des visages et des corps humains. L’efficience et l’efficacité de ControlNet-Transformer sont encore soulignées, renforçant son potentiel pour les applications en temps réel.
Les progrès révolutionnaires de PIXART-δ dans le domaine de la synthèse texte-image pourraient transformer le marché. Grâce à son efficacité et sa qualité exceptionnelle, cette technologie permettra aux entreprises de produire des visuels de haute qualité plus rapidement et avec un meilleur contrôle, ouvrant ainsi de nouvelles perspectives en matière de création de contenu, de marketing et d’engagement client. Cette innovation positionne PIXART-δ en tant qu’acteur révolutionnaire, offrant aux entreprises un avantage concurrentiel à l’ère du numérique.






