Le nouvel outil d’IA de Google DeepMind utilise des pixels vidéo et des invites textuelles pour générer des bandes sonores
Le nouvel outil d’IA de Google DeepMind utilise des pixels vidéo et des invites textuelles pour générer des bandes sonores


Google DeepMind a enlevé le voile d’un nouvel outil d’IA pour générer des bandes sonores vidéo. En plus d’utiliser une invite textuelle pour générer de l’audio, l’outil de DeepMind prend également en compte le contenu de la vidéo.
En combinant les deux, DeepMind affirme que les utilisateurs peuvent utiliser l’outil pour créer des scènes avec « une partition dramatique, des effets sonores réalistes ou des dialogues qui correspondent aux personnages et au ton d’une vidéo ». Vous pouvez voir certains des exemples publiés sur le site Web de DeepMind et ils semblent plutôt bons.
Pour une vidéo d’une voiture traversant un paysage urbain cyberpunk, Google a utilisé l’invite « dérapage des voitures, accélération du moteur de la voiture, musique électronique angélique » pour générer de l’audio. Vous pouvez voir comment les bruits de dérapage correspondent au mouvement de la voiture. Un autre exemple crée un paysage sonore sous-marin utilisant l’invite « méduses palpitant sous l’eau, vie marine, océan ».
Même si les utilisateurs peuvent inclure une invite de texte, DeepMind indique que c’est facultatif. Les utilisateurs n’ont pas non plus besoin de faire correspondre méticuleusement l’audio généré avec les scènes appropriées. Selon DeepMind, l’outil peut également générer un nombre « illimité » de bandes sonores pour les vidéos, permettant aux utilisateurs de proposer un flux infini d’options audio.
Cela pourrait l’aider à se démarquer des autres outils d’IA, comme le générateur d’effets sonores d’ElevenLabs, qui utilise des invites textuelles pour générer de l’audio. Cela pourrait également faciliter le couplage de l’audio avec la vidéo générée par l’IA à partir d’outils tels que Veo et Sora de DeepMind (ce dernier prévoyant d’incorporer éventuellement de l’audio).
DeepMind affirme avoir formé son outil d’IA sur la vidéo, l’audio et les annotations contenant « des descriptions détaillées du son et des transcriptions du dialogue parlé ». Cela permet au générateur vidéo-audio de faire correspondre les événements audio avec des scènes visuelles.
L’outil présente encore certaines limites. Par exemple, DeepMind essaie d’améliorer sa capacité à synchroniser le mouvement des lèvres avec le dialogue, comme vous pouvez le voir dans cette vidéo. DeepMind note également que son système vidéo-audio dépend de la qualité vidéo, donc tout ce qui est granuleux ou déformé « peut entraîner une baisse notable de la qualité audio ».
L’outil de DeepMind n’est pas encore disponible pour le grand public, car il devra encore subir « des évaluations et des tests de sécurité rigoureux ». Lorsqu’il sera disponible, sa sortie audio inclura le filigrane SynthID de Google pour indiquer qu’il est généré par l’IA.






