Présentation de Stable Audio 2.0

Présentation de Stable Audio 2.0

3 avril 2024 • 08:29
PARTAGER
Futur-IA: Présentation de Stable Audio 2.0

Communiqué de Stability AI:

Points clés à retenir

Stable Audio 2.0 établit une nouvelle norme en matière d’audio généré par l’IA, produisant des pistes complètes de haute qualité avec une structure musicale cohérente d’une durée allant jusqu’à trois minutes en stéréo 44,1 kHz.

Le nouveau modèle introduit la génération audio-audio en permettant aux utilisateurs de télécharger et de transformer des échantillons à l’aide d’invites en langage naturel.

Stable Audio 2.0 a été exclusivement formé sur un ensemble de données sous licence du AudioSparx bibliothèque musicale, en honorant les demandes de désinscription et en garantissant une rémunération équitable aux créateurs.

Explorez le modèle et commencez à créer gratuitement sur le Audio stable site Web maintenant.

Aujourd’hui, nous avons le plaisir de vous présenter Audio stable 2.0. Ce modèle permet d’obtenir des pistes complètes de haute qualité avec une structure musicale cohérente d’une durée allant jusqu’à trois minutes en stéréo 44,1 kHz à partir d’une seule invite en langage naturel.

Le nouveau modèle va au-delà de la conversion texte-audio pour inclure des fonctionnalités audio-audio. Les utilisateurs peuvent désormais télécharger des échantillons audio et, grâce à des invites en langage naturel, transformer ces échantillons en un large éventail de sons. Cette mise à jour étend également la génération d’effets sonores et le transfert de style, offrant aux artistes et aux musiciens plus de flexibilité, de contrôle et un processus créatif amélioré.

Stable Audio 2.0 s’appuie sur Stable Audio 1.0, qui a fait ses débuts en septembre 2023 en tant que premier outil de génération de musique IA commercialement viable, capable de produire de la musique à 44,1 kHz de haute qualité, en tirant parti de la technologie de diffusion latente. Depuis, elle a été nommée l’une des meilleures inventions de TIME en 2023.

Ce nouveau modèle est disponible dès aujourd’hui gratuitement sur Stable Audio. site web et sera bientôt disponible sur l’API Stable Audio.

Nouvelles fonctionnalités

Notre modèle audio le plus avancé à ce jour élargit la boîte à outils créative pour les artistes et musiciens avec ses nouvelles fonctionnalités. Grâce aux invites texte-audio et audio-audio, les utilisateurs peuvent produire des mélodies, des pistes d’accompagnement, des stems et des effets sonores, améliorant ainsi le processus créatif.

Pistes complètes

Stable Audio 2.0 se distingue des autres modèles de pointe car il peut générer des chansons d’une durée maximale de trois minutes, complétées par des compositions structurées comprenant une intro, un développement et une sortie, ainsi que des effets sonores stéréo.

Génération audio-audio

Stable Audio 2.0 prend désormais en charge le téléchargement de fichiers audio pour transformer les idées en échantillons entièrement produits. Notre Conditions d’utilisation exigeons que les téléchargements soient exempts de matériel protégé par le droit d’auteur, et nous utilisons une reconnaissance de contenu avancée pour maintenir la conformité et empêcher toute violation.

Création de variations et d’effets sonores

Ce modèle amplifie la production d’effets sonores et audio, du tapotement sur un clavier au rugissement d’une foule ou au bourdonnement des rues de la ville, il offre de nouvelles façons d’élever les projets audio.

Transfert de style

Cette nouvelle fonctionnalité modifie de manière transparente l’audio nouvellement généré ou téléchargé au cours du processus de génération. Cette fonctionnalité permet de personnaliser le thème de la sortie, pour l’aligner sur le style et le ton spécifiques d’un projet.

Recherche

L’architecture du modèle de diffusion latente Stable Audio 2.0 est spécifiquement conçue pour permettre la génération de pistes complètes avec des structures cohérentes. Pour y parvenir, nous avons adapté tous les composants du système pour améliorer les performances sur de longues périodes. Un nouvel encodeur automatique hautement compressé compresse les formes d’onde audio brutes en représentations beaucoup plus courtes. Pour le modèle de diffusion, nous utilisons un transformateur de diffusion (DiT), semblable à celui utilisé dans Stable Diffusion 3, à la place du précédent U-Net, car il est plus apte à manipuler des données sur de longues séquences. La combinaison de ces deux éléments aboutit à un modèle capable de reconnaître et de reproduire les structures à grande échelle essentielles aux compositions musicales de haute qualité.

Restez à l’écoute pour la publication du document de recherche avec des détails techniques supplémentaires.

Afficher en taille réelle

L’Autoencoder condense l’audio et le reconstruit à son état d’origine. Il capture et reproduit les caractéristiques essentielles tout en filtrant les détails moins importants pour des générations plus cohérentes.

Afficher en taille réelle

Un transformateur de diffusion (DiT) affine progressivement le bruit aléatoire en données structurées, identifiant des modèles et des relations complexes. Combiné avec l’Autoencoder, il acquiert la capacité de traiter des séquences plus longues pour créer une interprétation plus profonde et plus précise des entrées.

Garanties

Comme le modèle 1.0, le modèle 2.0 est formé sur les données de AudioSparx composé de plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des tiges d’instrument unique, ainsi que des métadonnées textuelles correspondantes. Tous les artistes d’AudioSparx ont eu la possibilité de « se désinscrire » de la formation sur le modèle Stable Audio.

Pour protéger les droits d’auteur des créateurs, pour les téléchargements audio, nous travaillons en partenariat avec Magie audible pour utiliser leur technologie de reconnaissance de contenu (ACR) pour alimenter la correspondance de contenu en temps réel afin d’empêcher la violation du droit d’auteur.

Radio stable

Stable Radio, un flux en direct 24h/24 et 7j/7 qui présente des morceaux générés exclusivement par Stable Audio, est désormais diffusé sur Stable Audio. Chaîne Youtube.

Explorez le modèle et commencez à créer gratuitement sur le Audio stable site Web maintenant.

Source

PARTAGER

PARTAGER

NEWSLETTER: Recevez le meilleur de l'actu IA!

Suivez nous sur les réseaux sociaux

Outils en avant


              Vidnoz AI

Catégorie:  Vidéo

Vidnoz AI est un outil générateur de vidéos qui permet aux équipes, aux entreprises et aux utilisateurs de créer des vidéos d'IA attrayantes rapidement et à moindre coût. En éliminant le besoin de caméras, d'acteurs et de studios, Vidnoz AI permet d'économiser du temps et de l'argent. Les utilisateurs ont déclaré avoir économisé jusqu'à 80[...]


WP Dev AI

Catégorie:  Developer Tools,Outils pour développeurs

WP Dev AI permet aux utilisateurs de créer sans effort des fonctionnalités personnalisées pour les sites Web WordPress grâce au code généré par l'IA, éliminant ainsi le besoin de développeurs coûteux. Avec des instructions claires et des extraits de code accessibles à tout moment, les utilisateurs peuvent améliorer efficacement leurs sites WordPress sans expertise technique.[...]

Leonardo AI

Catégorie:  Générateur d'images,Image Generator

Libérez votre créativité avec la puissance de Leonardo Ai. Ce logiciel vous permet de créer des ressources visuelles de haute qualité pour vos projets avec une qualité, une rapidité et une cohérence de style inégalées. Il vous permet de cultiver l'originalité, offre une maîtrise simplifiée et dynamise l'innovation, ce qui en fait un outil essentiel pour diverses[...]


              Suno.ai

Catégorie:  Musique

Suno.ai est un logiciel révolutionnaire qui permet à quiconque, des chanteurs de douche aux artistes professionnels, de créer de la musique sans avoir besoin d'instruments de musique. Avec juste votre imagination, vous pouvez créer vos propres chansons sans effort. Suno.ai propose une approche unique et passionnante de la création musicale, la rendant accessible à tous.[...]

Articles populaires

Tags