AudioGPT - Un aperçu de l'avenir de la création musicale | par Max Hilsdorf

COMMENT L’INTELLIGENCE ARTIFICIELLE VA TROUBLER LA CRÉATION MUSICALE

Le modèle AudioGPT, publié en avril 2023 par des chercheurs chinois et américains, pourrait bouleverser la manière dont nous créons de la musique. Ce système de dialogues assistés peut capter à la fois des textes et des paroles pour exécuter des tâches d’analyse et de génération d’audio comme la description d’un signal audio, la séparation de sources, la génération d’audio à partir d’images et de partitions, entre autres fonctions. À ce stade, le système est coordonné par un chatbot qui utilise 17 modèles d’IA spécifiques pour accomplir des tâches particulières. AudioGPT peut exporter des fichiers audio et stocker des données dans sa mémoire, offrant ainsi une expérience de conversation complète. Cependant, il ne dispose pas de beaucoup de modèles dédiés à la musique, si bien qu’il y a encore de la place pour améliorer le système en ajoutant d’autres modèles.

LE FONCTIONNEMENT D’AUDIOGPT

Le modèle de production de l’AudioGPT comporte quatre étapes principales. Tout d’abord, le système vérifie si l’utilisateur saisit un texte ou parle avant de le transcrire s’il s’agit du dernier cas. Ensuite, le chatbot utilise le modèle de réseau neuronal GPT (Generative Pre-trained Transformer) pour comprendre et interpréter les demandes pour les associer à l’un des 17 modèles d’IA qui correspondent aux différentes tâches d’analyse et de génération d’audio. Le modèle approprié est sélectionné sur la base de la compréhension de la demande par le chatbot. Finalemement, la réponse est générée par l’un des modèles d’IA.

LES CAPACITÉS ET LES LIMITATIONS D’AUDIOGPT

Les interactions possibles avec ce système sont nombreuses, comme la génération de musiques et d’effets sonores à partir d’images ou de paroles. La reconnaissance de la parole semble également l’une des fonctionnalités les plus intéressantes d’AudioGPT. Le système peut également utiliser un modèle de synthèse de la voix pour créer un chant selon les notes et les durées des notes fournies en entrée. Les chercheurs ont également montré comment AudioGPT peut extraire des sons et des mots de manière à faire ressortir ce qui est pertinent pour l’utilisateur. Cependant, toutes les fonctionnalités proposées par AudioGPT ne semblent pas appréciables. Les chercheurs ont souligné que le système n’est pas destiné à l’analyse ou à la génération de musique, sauf pour les modèles de synthèse vocale.

LES PERSPECTIVES POUR LE FUTUR DE LA CRÉATION MUSICALE

AudioGPT pourrait bouleverser la manière dont la musique est produite et utilisée par les musiciens et les artistes en général. En utilisant le traitement automatique du langage et l’analyse semantique, le système peut potentiellement automatiser certaines tâches, ce qui pourrait être une autre voie pour d’autres applications liées à la création musicale. Il est facile de voir comment un système tel qu’AudioGPT pourrait révolutionner l’industrie musicale à mesure qu’il se développe et se perfectionne. Cependant, laquelle de ces fonctionnalités sera éventuellement utilisée, cela reste à voir. Ce modèle de nouvel ordre pour la création musicale peut également fournir aux artistes de nouveaux moyens pour exprimer leur créativité et libérer une nouvelle vie musicale.