L’application d’IA de Microsoft VASA-1 fait parler et chanter les photographies

L’application d’IA de Microsoft VASA-1 fait parler et chanter les photographies

23 avril 2024 • 08:47
PARTAGER
L'application d'IA de Microsoft VASA-1
Futur-IA: L’application d’IA de Microsoft VASA-1 fait parler et chanter les photographies

Une équipe de chercheurs en IA de Microsoft Research Asia a développé une application d’IA qui convertit une image fixe d’une personne et une piste audio en une animation qui représente avec précision l’individu parlant ou chantant la piste audio avec des expressions faciales appropriées.

L’équipe a publié un document décrivant comment ils ont créé l’application sur le serveur de préimpression arXiv, des échantillons vidéo sont disponibles sur la page du projet de recherche.

L’équipe de recherche a cherché à animer des images fixes parlant et chantant en utilisant n’importe quelle piste audio d’accompagnement fournie, tout en affichant des expressions faciales crédibles. Ils ont clairement réussi avec le développement de VASA-1, un système d’IA qui transforme des images statiques, qu’elles soient capturées par une caméra, dessinées ou peintes, en ce qu’ils décrivent comme des animations « superbement synchronisées ».

Le groupe a prouvé l’efficacité de son système en publiant de courts extraits vidéo des résultats de ses tests. Dans l’un d’entre eux, une version dessinée de Mona Lisa interprète une chanson de rap, dans une autre, une photographie d’une femme a été transformée en un spectacle de chant, et dans une autre encore, le dessin d’un homme prononce un discours.

Dans chacune des animations, les expressions faciales changent avec les mots de manière à mettre en valeur ce qui est dit. Les chercheurs notent également que malgré le caractère réaliste des vidéos, une inspection plus approfondie peut révéler des défauts et des preuves qu’elles ont été générées artificiellement.

L’équipe de recherche a obtenu ses résultats en entraînant son application sur des milliers d’images présentant une grande variété d’expressions faciales. Ils notent également que le système produit actuellement des images de 512 x 512 pixels fonctionnant à 45 images par seconde. De plus, il a fallu en moyenne deux minutes pour produire les vidéos à l’aide d’un GPU Nvidia RTX 4090 de qualité bureau.

L’équipe de recherche suggère que VASA-1 pourrait être utilisé pour générer des avatars extrêmement réalistes pour des jeux ou des simulations. Dans le même temps, ils reconnaissent le potentiel d’abus et ne mettent donc pas le système à la disposition d’un usage général.

Plus d’informations : Sicheng Xu et al, VASA-1 : visages parlants réalistes pilotés par audio générés en temps réel, arXiv (2024). DOI : 10.48550/arxiv.2404.10667

Page du projet : www.microsoft.com/en-us/research/project/vasa-1/

Informations sur la revue : arXiv

Tags:
PARTAGER

PARTAGER

NEWSLETTER: Recevez le meilleur de l'actu IA!

Suivez nous sur les réseaux sociaux

Outils en avant


              Vidnoz AI

Catégorie:  Vidéo

Vidnoz AI est un outil générateur de vidéos qui permet aux équipes, aux entreprises et aux utilisateurs de créer des vidéos d'IA attrayantes rapidement et à moindre coût. En éliminant le besoin de caméras, d'acteurs et de studios, Vidnoz AI permet d'économiser du temps et de l'argent. Les utilisateurs ont déclaré avoir économisé jusqu'à 80[...]


WP Dev AI

Catégorie:  Developer Tools,Outils pour développeurs

WP Dev AI permet aux utilisateurs de créer sans effort des fonctionnalités personnalisées pour les sites Web WordPress grâce au code généré par l'IA, éliminant ainsi le besoin de développeurs coûteux. Avec des instructions claires et des extraits de code accessibles à tout moment, les utilisateurs peuvent améliorer efficacement leurs sites WordPress sans expertise technique.[...]

Leonardo AI

Catégorie:  Générateur d'images,Image Generator

Libérez votre créativité avec la puissance de Leonardo Ai. Ce logiciel vous permet de créer des ressources visuelles de haute qualité pour vos projets avec une qualité, une rapidité et une cohérence de style inégalées. Il vous permet de cultiver l'originalité, offre une maîtrise simplifiée et dynamise l'innovation, ce qui en fait un outil essentiel pour diverses[...]


              Suno.ai

Catégorie:  Musique

Suno.ai est un logiciel révolutionnaire qui permet à quiconque, des chanteurs de douche aux artistes professionnels, de créer de la musique sans avoir besoin d'instruments de musique. Avec juste votre imagination, vous pouvez créer vos propres chansons sans effort. Suno.ai propose une approche unique et passionnante de la création musicale, la rendant accessible à tous.[...]

Articles populaires

Tags