Stable Audio Open: document de recherche

22 juillet 2024 • 12:06

Futur-IA: Stable Audio Open: document de recherche

Communiqué de Stability AI:

Points clés à retenir:

Stable Audio Open décrit l’architecture et le processus de formation du nouveau modèle texte-audio à pondération ouverte de Stability AI, formé avec des données Creative Commons.

Les poids Stable Audio Open sont disponibles sur Huggingface. Le modèle est publié sous licence communautaire Stability AI qui autorise l’utilisation non commerciale et l’utilisation commerciale pour les particuliers ou les organisations dont le chiffre d’affaires annuel peut atteindre 1 million de dollars. Contactez-nous pour les licences d’entreprise.

Le modèle peut générer un son stéréo de haute qualité à 44,1 kHz à partir d’invites de texte et peut être utilisé pour synthétiser des sons réalistes et des enregistrements sur le terrain.

Stable Audio Open fonctionne sur des GPU grand public, ce qui le rend accessible à des fins académiques et à des cas d’utilisation artistiques.

Suite à la publication open source de Stable Audio Open, nous sommes ravis de partager le document de recherche décrivant les détails techniques du modèle. Le document est accessible sur arXiv et les poids des modèles sont disponibles sur Huggingface

Architecture

Stable Audio Open présente un modèle texte-audio avec trois composants clés :

Un autoencodeur qui compresse les formes d’onde dans une longueur de séquence gérable

Une intégration de texte basée sur T5 pour le conditionnement du texte

Un modèle de diffusion basé sur un transformateur (DiT) fonctionnant dans l’espace latent de l’autoencodeur.

Le modèle génère un son stéréo de longueur variable à 44,1 kHz, jusqu’à 47 secondes. L’autoencodeur atteint un faible taux de latence de 21,5 Hz, ce qui peut fonctionner pour la musique et l’audio. Stable Audio Open est une variante de Stable Audio 2.0, mais formée sur un ensemble de données différent (données Creative Commons). Cette architecture est similaire, mais utilise le conditionnement de texte T5 au lieu de CLAP.

Données d’entraînement

Stable Audio Open a été formé à l’aide de près de 500 000 enregistrements sous licence CC-0, CC-BY ou CC-Sampling+. L’ensemble de données comprend 472 618 enregistrements de Freesound et 13 874 de Free Music Archive (FMA).

Pour garantir qu’aucun matériel protégé par le droit d’auteur n’a été inclus, ce contenu a été soigneusement organisé en identifiant des échantillons de musique dans Freesound à l’aide de PANN tagger audio. Les échantillons identifiés ont été envoyés à Magie audible. La société de détection de contenu de s’assure que la musique potentiellement protégée par le droit d’auteur est supprimée de l’ensemble de données.

Cas d’utilisation

Stable Audio Open peut être affiné pour personnaliser la génération audio, par exemple en adaptant la longueur du contenu généré ou en répondant aux besoins précis de divers secteurs et projets créatifs. Les utilisateurs peuvent entraîner le modèle localement avec les GPU A6000. Pour obtenir de l’aide sur les invites, consultez quelques conseils pour Stable Audio 2.0.

Voici quelques exemples d’applications, à la fois pour une utilisation standard du modèle et pour un réglage fin ou une intégration dans les flux de travail :

Conception sonore

Effets sonores et effets Foley : générez des effets sonores tels que des pas, des grincements de porte ou des sons environnementaux qui peuvent être utilisés pour le cinéma, la télévision, les jeux vidéo et le développement de jeux.

Sons ambiants : créez des paysages sonores ou des textures d’arrière-plan qui correspondent à l’ambiance et à l’atmosphère d’une scène.

Création d’échantillons : générez des boucles de batterie et des échantillons de musique pour produire des morceaux de musique.

Applications commerciales et marketing

Branding audio : créez des effets sonores pour des publicités ou développez des logos audio et des sons de marque pour améliorer la reconnaissance et l’identité de la marque grâce à des éléments audio personnalisés.

Enseignement et recherche

Projets académiques : Utilisez le modèle pour la recherche en synthèse audio, en apprentissage automatique et en musicologie pour expérimenter et analyser l’audio généré.

Dans ce démo vous pouvez trouver plus d’exemples et voir comment les performances de Stable Audio Open se comparent à celles d’autres modèles.

Conclusions

La sortie de Stable Audio Open marque une étape importante dans l’IA audio open source. Elle offre une génération de son stéréo de haute qualité à 44,1 kHz et fonctionne sur des GPU grand public, en mettant l’accent sur la transparence des données. Tout en reconnaissant les limites dans des domaines tels que la génération de parole et de musique, l’accessibilité et les performances du modèle en font un outil précieux pour les chercheurs et les artistes, repoussant les limites de ce qui est possible avec l’IA audio ouverte.

Les poids du modèle Stable Audio Open sont disponibles sur Huggingface. Nous encourageons les concepteurs sonores, les musiciens, les développeurs et les passionnés d’audio à télécharger le modèle, à explorer ses capacités et à partager des exemples de la façon dont ils utilisent Stable Audio Open.

Source

Tags: Stability AI

PARTAGER

Suivez nous sur les réseaux sociaux

Outils en avant

Catégorie: Vidéo

Vidnoz AI

Vidnoz AI est un outil générateur de vidéos qui permet aux équipes, aux entreprises et aux utilisateurs de créer des vidéos d'IA attrayantes rapidement et à moindre coût. En éliminant le besoin de caméras, d'acteurs et de studios, Vidnoz AI permet d'économiser du temps et de l'argent. Les utilisateurs ont déclaré avoir économisé jusqu'à 80[...]

Catégorie: Developer Tools,Outils pour développeurs

WP Dev AI

WP Dev AI permet aux utilisateurs de créer sans effort des fonctionnalités personnalisées pour les sites Web WordPress grâce au code généré par l'IA, éliminant ainsi le besoin de développeurs coûteux. Avec des instructions claires et des extraits de code accessibles à tout moment, les utilisateurs peuvent améliorer efficacement leurs sites WordPress sans expertise technique.[...]

Catégorie: Générateur d'images,Image Generator

Leonardo.ai

Libérez votre créativité avec la puissance de Leonardo Ai. Ce logiciel vous permet de créer des ressources visuelles de haute qualité pour vos projets avec une qualité, une rapidité et une cohérence de style inégalées. Il vous permet de cultiver l'originalité, offre une maîtrise simplifiée et dynamise l'innovation, ce qui en fait un outil essentiel pour diverses[...]

Catégorie: Musique

Suno.ai

Suno.ai est un logiciel révolutionnaire qui permet à quiconque, des chanteurs de douche aux artistes professionnels, de créer de la musique sans avoir besoin d'instruments de musique. Avec juste votre imagination, vous pouvez créer vos propres chansons sans effort. Suno.ai propose une approche unique et passionnante de la création musicale, la rendant accessible à tous.[...]

Soumettre votre outil IASoumettre votre outil IA

Articles populaires

Tags

Stable Audio Open: document de recherche

Stable Audio Open: document de recherche

Communiqué de Stability AI:

Points clés à retenir:

Architecture

Données d’entraînement

Cas d’utilisation

Conclusions

PARTAGER

NEWSLETTER: Recevez le meilleur de l'actu IA!

Suivez nous sur les réseaux sociaux

Outils en avant

Vidnoz AI

WP Dev AI

Leonardo.ai

Suno.ai

Liens utiles

Suivez nous sur les réseaux sociaux