Découvrez le nouveau modèle de génération de musique symbolique grâce aux métadonnées
Découvrez le nouveau modèle de génération de musique symbolique grâce aux métadonnées


L’essor de l’intelligence artificielle (IA) offre des opportunités passionnantes pour l’industrie musicale. Aujourd’hui, des outils capables de générer automatiquement des compositions musicales ou des pistes instrumentales émergent, mais la plupart de ces technologies s’adressent principalement aux musiciens et producteurs professionnels. Cependant, une nouvelle innovation développée par LG AI Research change la donne.
Un Système innovant pour tous
Les chercheurs de LG AI Research ont mis au point un système interactif qui facilite la transformation des idées musicales de n’importe quel utilisateur en compositions. Ce système, comme l’indiquent Sangjun Han, Jiwon Ham et leurs collègues dans leur publication sur le serveur arXiv, repose sur un transformateur autorégressif entraîné sur de vastes ensembles de données musicales, tout en proposant une interface intuitive.
Fonctionnement du système
Le principe de ce système repose sur la génération de musique symbolique qui se concentre sur des motifs musicaux courts. Il génère quatre barres de musique MIDI multipistes à partir de métadonnées musicales. En utilisant deux ensembles de données majeurs, à savoir le Ensemble de données MIDI Lakh et le Ensemble de données MetaMIDI, le modèle a été nourri par plus de 400 000 fichiers MIDI.
Pour entraîner ce modèle, l’équipe a converti chaque fichier MIDI en un format de représentation d’événement musical, connu sous le nom de REMI. Ce format possède l’avantage de coder les données MIDI en jetons qui illustrent divers aspects musicaux, tels que la hauteur et la vélocité. Voici les avantages clés du format REMI :
- Facilité d’apprentissage : Capturer la dynamique de la musique de manière efficace pour l’IA.
- Flexibilité : Permet de modifier divers aspects musicaux pendant la formation.
- Contrôle : Offrir aux utilisateurs une meilleure maîtrise sur la composition générée.
Une interface accessible à tous
En parallèle de la création de leur modèle, les chercheurs ont conçu une interface utilisateur simple et intuitive. Cette interface se compose de deux éléments principaux : une barre latérale et un panneau interactif central.
Fonctionnalités de l’interface
Dans la barre latérale, les utilisateurs peuvent définir les éléments de musique qu’ils souhaitent générer, incluant :
- Les instruments à utiliser
- Le tempo de la chanson
Après la génération d’une piste, il est possible de l’éditer directement dans le panneau central, qu’il s’agisse d’ajouter ou de retirer des instruments, ou d’ajuster le moment où les éléments musicaux doivent commencer à jouer. Cette approche vise à maximiser la créativité tout en garantissant un accès facile aux utilisateurs de tous niveaux.
Une validité prouvée par l’expérience
Les chercheurs ont évalué l’efficacité de leur modèle par des expériences mesurant la capacité du modèle, la fidélité musicale, la diversité et le contrôle. Au-delà de la validation, ils ont élargi le modèle et l’ont comparé avec d’autres générateurs musicaux. Les résultats indiquent une supériorité notable en termes de contrôle et de qualité musicale.
Le système a démontré sa capacité à générer avec fiabilité des séquences musicales de quatre mesures, répondant adéquatement aux spécifications des utilisateurs. Pour l’avenir, l’équipe prévoit d’améliorer encore ce système en :
- Prolongeant la durée des pistes musicales générées
- Élargissant les options de spécification pour les utilisateurs
- Optimisant l’interface utilisateur pour plus d’accessibilité
En conclusion
Avec l’évolution de l’IA, la création musicale devient de plus en plus accessible à tous. Ce système innovant de LG AI Research ne nécessite pas d’expertise musicale pour permettre aux utilisateurs d’exprimer leurs idées, ouvrant la voie à de nouvelles formes de créativité musicale.
« Notre modèle, entraîné pour générer 4 mesures de musique avec un contrôle global, présente des limites en termes d’extension de la durée de la musique et de contrôle des éléments locaux au niveau des mesures », ont écrit les chercheurs. « Cependant, nos tentatives sont importantes pour générer des thèmes musicaux de haute qualité pouvant être utilisés comme boucle. »
Plus d’informations : Sangjun Han et al, Contrôle flexible dans la génération de musique symbolique via des métadonnées musicales, arXiv (2024). DOI : 10.48550/arxiv.2409.07467
Informations sur la revue : arXiv

Franck Ribiere
Basé en France entre Aix-en-Provence et Marseille, Franck est un informaticien passionné par l'intelligence artificielle, avec une expertise en développement logiciel web. Toujours à l'affût des dernières avancées, il s'efforce de proposer les infos les + pertinentes.






