Stable Audio Open: document de recherche
Stable Audio Open: document de recherche


Communiqué de Stability AI:
Points clés à retenir:
Stable Audio Open décrit l’architecture et le processus de formation du nouveau modèle texte-audio à pondération ouverte de Stability AI, formé avec des données Creative Commons.
Les poids Stable Audio Open sont disponibles sur Huggingface. Le modèle est publié sous licence communautaire Stability AI qui autorise l’utilisation non commerciale et l’utilisation commerciale pour les particuliers ou les organisations dont le chiffre d’affaires annuel peut atteindre 1 million de dollars. Contactez-nous pour les licences d’entreprise.
Le modèle peut générer un son stéréo de haute qualité à 44,1 kHz à partir d’invites de texte et peut être utilisé pour synthétiser des sons réalistes et des enregistrements sur le terrain.
Stable Audio Open fonctionne sur des GPU grand public, ce qui le rend accessible à des fins académiques et à des cas d’utilisation artistiques.
Suite à la publication open source de Stable Audio Open, nous sommes ravis de partager le document de recherche décrivant les détails techniques du modèle. Le document est accessible sur arXiv et les poids des modèles sont disponibles sur Huggingface
Architecture
Stable Audio Open présente un modèle texte-audio avec trois composants clés :
Un autoencodeur qui compresse les formes d’onde dans une longueur de séquence gérable
Une intégration de texte basée sur T5 pour le conditionnement du texte
Un modèle de diffusion basé sur un transformateur (DiT) fonctionnant dans l’espace latent de l’autoencodeur.
Le modèle génère un son stéréo de longueur variable à 44,1 kHz, jusqu’à 47 secondes. L’autoencodeur atteint un faible taux de latence de 21,5 Hz, ce qui peut fonctionner pour la musique et l’audio. Stable Audio Open est une variante de Stable Audio 2.0, mais formée sur un ensemble de données différent (données Creative Commons). Cette architecture est similaire, mais utilise le conditionnement de texte T5 au lieu de CLAP.
Données d’entraînement
Stable Audio Open a été formé à l’aide de près de 500 000 enregistrements sous licence CC-0, CC-BY ou CC-Sampling+. L’ensemble de données comprend 472 618 enregistrements de Freesound et 13 874 de Free Music Archive (FMA).
Pour garantir qu’aucun matériel protégé par le droit d’auteur n’a été inclus, ce contenu a été soigneusement organisé en identifiant des échantillons de musique dans Freesound à l’aide de PANN tagger audio. Les échantillons identifiés ont été envoyés à Magie audible. La société de détection de contenu de s’assure que la musique potentiellement protégée par le droit d’auteur est supprimée de l’ensemble de données.
Cas d’utilisation
Stable Audio Open peut être affiné pour personnaliser la génération audio, par exemple en adaptant la longueur du contenu généré ou en répondant aux besoins précis de divers secteurs et projets créatifs. Les utilisateurs peuvent entraîner le modèle localement avec les GPU A6000. Pour obtenir de l’aide sur les invites, consultez quelques conseils pour Stable Audio 2.0.
Voici quelques exemples d’applications, à la fois pour une utilisation standard du modèle et pour un réglage fin ou une intégration dans les flux de travail :
Conception sonore
Effets sonores et effets Foley : générez des effets sonores tels que des pas, des grincements de porte ou des sons environnementaux qui peuvent être utilisés pour le cinéma, la télévision, les jeux vidéo et le développement de jeux.
Sons ambiants : créez des paysages sonores ou des textures d’arrière-plan qui correspondent à l’ambiance et à l’atmosphère d’une scène.
Création d’échantillons : générez des boucles de batterie et des échantillons de musique pour produire des morceaux de musique.
Applications commerciales et marketing
Branding audio : créez des effets sonores pour des publicités ou développez des logos audio et des sons de marque pour améliorer la reconnaissance et l’identité de la marque grâce à des éléments audio personnalisés.
Enseignement et recherche
Projets académiques : Utilisez le modèle pour la recherche en synthèse audio, en apprentissage automatique et en musicologie pour expérimenter et analyser l’audio généré.
Dans ce démo vous pouvez trouver plus d’exemples et voir comment les performances de Stable Audio Open se comparent à celles d’autres modèles.
Conclusions
La sortie de Stable Audio Open marque une étape importante dans l’IA audio open source. Elle offre une génération de son stéréo de haute qualité à 44,1 kHz et fonctionne sur des GPU grand public, en mettant l’accent sur la transparence des données. Tout en reconnaissant les limites dans des domaines tels que la génération de parole et de musique, l’accessibilité et les performances du modèle en font un outil précieux pour les chercheurs et les artistes, repoussant les limites de ce qui est possible avec l’IA audio ouverte.
Les poids du modèle Stable Audio Open sont disponibles sur Huggingface. Nous encourageons les concepteurs sonores, les musiciens, les développeurs et les passionnés d’audio à télécharger le modèle, à explorer ses capacités et à partager des exemples de la façon dont ils utilisent Stable Audio Open.









