Présentation de Stable Video 3D : synthèse de vues inédites de qualité et génération 3D à partir d’images uniques
Présentation de Stable Video 3D : synthèse de vues inédites de qualité et génération 3D à partir d’images uniques


Communiqué de Stability AI:
Points clés à retenir:
Aujourd’hui, nous lançons Stable Video 3D (SV3D), un modèle génératif basé sur Stable Video Diffusion, qui fait progresser le domaine de la technologie 3D et offre une qualité et une cohérence de vue considérablement améliorées.
Cette version propose deux variantes : SV3D_u et SV3D_p. SV3D_u génère des vidéos orbitales basées sur des entrées d’image unique sans conditionnement de caméra. SV3D_p étend la capacité en prenant en charge à la fois des images uniques et des vues orbitales, permettant la création de vidéos 3D le long de trajectoires de caméra spécifiées.
Stable Video 3D peut désormais être utilisé à des fins commerciales avec un abonnement Stability AI. Pour une utilisation non commerciale, vous pouvez télécharger les poids des modèles sur Hugging Face et consultez notre document de recherche ici.
Lorsque nous avons publié Stable Video Diffusion, nous avons souligné la polyvalence de notre modèle vidéo dans diverses applications. En nous appuyant sur cette base, nous sommes ravis de lancer Stable Video 3D. Ce nouveau modèle fait progresser le domaine de la technologie 3D, offrant une qualité et une multi-vue considérablement améliorées par rapport au Stable Zero123 précédemment publié, ainsi que surpassant d’autres alternatives open source telles que Zéro123-XL.
Cette version propose deux variantes :
SV3D_u : cette variante génère des vidéos orbitales basées sur des entrées d’image unique sans conditionnement de caméra.
SV3D_p : étendant les capacités de SVD3_u, cette variante prend en charge à la fois des images uniques et des vues orbitales, permettant la création de vidéos 3D le long de trajectoires de caméra spécifiées.
Stable Video 3D peut désormais être utilisé à des fins commerciales avec un abonnement Stability AI. Pour une utilisation non commerciale, vous pouvez télécharger les poids des modèles sur Hugging Face et consultez notre document de recherche ici.
Avantages de la diffusion vidéo
En adaptant notre modèle de diffusion image-vidéo Stable Video Diffusion avec l’ajout du conditionnement du chemin de la caméra, Stable Video 3D est capable de générer des vidéos multi-vues d’un objet. L’utilisation de modèles de diffusion vidéo, contrairement aux modèles de diffusion d’images utilisés dans Stable Zero123, offre des avantages majeurs en termes de généralisation et de cohérence de vue des sorties générées. De plus, nous proposons une optimisation 3D améliorée tirant parti de cette puissante capacité de Stable Video 3D pour générer des orbites arbitraires autour d’un objet. En mettant en œuvre davantage ces techniques avec une optimisation de l’éclairage démêlé ainsi qu’une nouvelle fonction de perte d’échantillonnage par distillation de score masqué, Stable Video 3D est capable de produire de manière fiable des maillages 3D de qualité à partir d’entrées d’image unique.
Voir le rapport technique ici pour plus de détails sur les modèles Stable Video 3D et les comparaisons expérimentales.
Génération de vues romanes
Stable Video 3D introduit des avancées significatives dans la génération 3D, en particulier dans la synthèse de nouvelles vues (NVS). Contrairement aux approches précédentes qui se heurtaient souvent à des perspectives limitées et à des incohérences dans les résultats, Stable Video 3D est capable de fournir des vues cohérentes sous n’importe quel angle donné avec une généralisation efficace. Cette capacité améliore non seulement le contrôle de la pose, mais garantit également une apparence cohérente des objets sur plusieurs vues, améliorant ainsi les aspects critiques des générations 3D réalistes et précises.

Stable Video 3D est capable de générer de nouvelles vues multiples plus détaillées, fidèles à l’image d’entrée et multi-vues cohérentes par rapport aux œuvres existantes.
Génération 3D
Stable Video 3D exploite sa cohérence multi-vues pour optimiser les champs de radiance neuronale 3D (NeRF) et les représentations de maillage afin d’améliorer la qualité des maillages 3D générés directement à partir de nouvelles vues. Pour cela, nous avons conçu une perte d’échantillonnage par distillation masquée afin d’améliorer encore la qualité 3D dans les régions non visibles dans les vues prédites. De plus, afin de réduire le problème de l’éclairage intégré, Stable Video 3D utilise un modèle d’éclairage démêlé qui est conjointement optimisé avec la forme et la texture 3D.
Stable Video 3D peut désormais être utilisé à des fins commerciales avec un abonnement Stability AI. Pour une utilisation non commerciale, vous pouvez télécharger les poids des modèles sur Hugging Face et consultez notre document de recherche ici.






