Le nouvel outil d’IA de Google DeepMind utilise des pixels vidéo et des invites textuelles pour générer des bandes sonores

23 juin 2024 • 13:27

Google DeepMind a enlevé le voile d’un nouvel outil d’IA pour générer des bandes sonores vidéo. En plus d’utiliser une invite textuelle pour générer de l’audio, l’outil de DeepMind prend également en compte le contenu de la vidéo.

En combinant les deux, DeepMind affirme que les utilisateurs peuvent utiliser l’outil pour créer des scènes avec « une partition dramatique, des effets sonores réalistes ou des dialogues qui correspondent aux personnages et au ton d’une vidéo ». Vous pouvez voir certains des exemples publiés sur le site Web de DeepMind et ils semblent plutôt bons.

Pour une vidéo d’une voiture traversant un paysage urbain cyberpunk, Google a utilisé l’invite « dérapage des voitures, accélération du moteur de la voiture, musique électronique angélique » pour générer de l’audio. Vous pouvez voir comment les bruits de dérapage correspondent au mouvement de la voiture. Un autre exemple crée un paysage sonore sous-marin utilisant l’invite « méduses palpitant sous l’eau, vie marine, océan ».

Même si les utilisateurs peuvent inclure une invite de texte, DeepMind indique que c’est facultatif. Les utilisateurs n’ont pas non plus besoin de faire correspondre méticuleusement l’audio généré avec les scènes appropriées. Selon DeepMind, l’outil peut également générer un nombre « illimité » de bandes sonores pour les vidéos, permettant aux utilisateurs de proposer un flux infini d’options audio.

Cela pourrait l’aider à se démarquer des autres outils d’IA, comme le générateur d’effets sonores d’ElevenLabs, qui utilise des invites textuelles pour générer de l’audio. Cela pourrait également faciliter le couplage de l’audio avec la vidéo générée par l’IA à partir d’outils tels que Veo et Sora de DeepMind (ce dernier prévoyant d’incorporer éventuellement de l’audio).

DeepMind affirme avoir formé son outil d’IA sur la vidéo, l’audio et les annotations contenant « des descriptions détaillées du son et des transcriptions du dialogue parlé ». Cela permet au générateur vidéo-audio de faire correspondre les événements audio avec des scènes visuelles.

L’outil présente encore certaines limites. Par exemple, DeepMind essaie d’améliorer sa capacité à synchroniser le mouvement des lèvres avec le dialogue, comme vous pouvez le voir dans cette vidéo. DeepMind note également que son système vidéo-audio dépend de la qualité vidéo, donc tout ce qui est granuleux ou déformé « peut entraîner une baisse notable de la qualité audio ».

L’outil de DeepMind n’est pas encore disponible pour le grand public, car il devra encore subir « des évaluations et des tests de sécurité rigoureux ». Lorsqu’il sera disponible, sa sortie audio inclura le filigrane SynthID de Google pour indiquer qu’il est généré par l’IA.

Tags: Google

PARTAGER

Suivez nous sur les réseaux sociaux

Outils en avant

Catégorie: Vidéo

Vidnoz AI

Vidnoz AI est un outil générateur de vidéos qui permet aux équipes, aux entreprises et aux utilisateurs de créer des vidéos d'IA attrayantes rapidement et à moindre coût. En éliminant le besoin de caméras, d'acteurs et de studios, Vidnoz AI permet d'économiser du temps et de l'argent. Les utilisateurs ont déclaré avoir économisé jusqu'à 80[...]

Catégorie: Developer Tools,Outils pour développeurs

WP Dev AI

WP Dev AI permet aux utilisateurs de créer sans effort des fonctionnalités personnalisées pour les sites Web WordPress grâce au code généré par l'IA, éliminant ainsi le besoin de développeurs coûteux. Avec des instructions claires et des extraits de code accessibles à tout moment, les utilisateurs peuvent améliorer efficacement leurs sites WordPress sans expertise technique.[...]

Catégorie: Générateur d'images,Image Generator

Leonardo.ai

Libérez votre créativité avec la puissance de Leonardo Ai. Ce logiciel vous permet de créer des ressources visuelles de haute qualité pour vos projets avec une qualité, une rapidité et une cohérence de style inégalées. Il vous permet de cultiver l'originalité, offre une maîtrise simplifiée et dynamise l'innovation, ce qui en fait un outil essentiel pour diverses[...]

Catégorie: Musique

Suno.ai

Suno.ai est un logiciel révolutionnaire qui permet à quiconque, des chanteurs de douche aux artistes professionnels, de créer de la musique sans avoir besoin d'instruments de musique. Avec juste votre imagination, vous pouvez créer vos propres chansons sans effort. Suno.ai propose une approche unique et passionnante de la création musicale, la rendant accessible à tous.[...]

Soumettre votre outil IASoumettre votre outil IA

Articles populaires

Tags

Le nouvel outil d’IA de Google DeepMind utilise des pixels vidéo et des invites textuelles pour générer des bandes sonores

Le nouvel outil d’IA de Google DeepMind utilise des pixels vidéo et des invites textuelles pour générer des bandes sonores

PARTAGER

NEWSLETTER: Recevez le meilleur de l'actu IA!

Suivez nous sur les réseaux sociaux

Outils en avant

Vidnoz AI

WP Dev AI

Leonardo.ai

Suno.ai

Liens utiles

Suivez nous sur les réseaux sociaux