La nouvelle outil d'IA de Google DeepMind utilise des pixels vidéo et des indications textuelles pour générer des bandes sonores.

GOOGLE DEEPMIND DEVOILE UN NOUVEL OUTIL D’INTELLIGENCE ARTIFICIELLE POUR GENERER DES BANDES SONORES DE VIDEO

Google DeepMind a dévoilé un nouvel outil d’intelligence artificielle pour générer des bandes sonores de vidéos. En plus d’utiliser une instruction textuelle pour générer de l’audio, l’outil de DeepMind prend également en compte le contenu de la vidéo.

SCENES PERSONNALISEES GRACE A L’IA DE DEEPMIND

En combinant les deux, DeepMind affirme que les utilisateurs peuvent utiliser l’outil pour créer des scènes avec "une bande sonore dramatique, des effets sonores réalistes ou un dialogue qui correspond aux personnages et à l’ambiance d’une vidéo". Vous pouvez voir quelques exemples postés sur le site de DeepMind – et ils sont plutôt convaincants.

CREATION DE SONS REALISTES POUR VIDEOS

Pour une vidéo d’une voiture conduisant à travers un paysage urbain cyberpunk, Google a utilisé l’instruction "voitures dérapant, moteur de voiture accélérant, musique électronique angélique" pour générer de l’audio. Vous pouvez voir comment les sons de dérapage correspondent au mouvement de la voiture. Un autre exemple crée une ambiance sonore sous-marine en utilisant l’instruction "méduses pulsantes sous l’eau, vie marine, océan".

OPTIONS ILLIMITEES D’AUDIO POUR VIDEOS

Bien que les utilisateurs puissent inclure une instruction textuelle, DeepMind affirme que cela est facultatif. Les utilisateurs n’ont pas non plus besoin d’associer méticuleusement l’audio généré aux scènes appropriées. Selon DeepMind, l’outil peut également générer un nombre "illimité" de bandes sonores pour les vidéos, permettant aux utilisateurs de proposer un flux infini d’options audio.

DIFFERENTIATION PAR RAPPORT A D’AUTRES OUTILS D’IA

Cela pourrait aider l’outil à se démarquer des autres outils d’IA, comme le générateur d’effets sonores d’ElevenLabs, qui utilise des instructions textuelles pour générer de l’audio. Cela pourrait également faciliter l’association audio avec des vidéos générées par IA à partir d’outils comme DeepMind’s Veo et Sora (ce dernier prévoyant d’incorporer à terme de l’audio).

ENTRAINEMENT DE L’IA DE DEEPMIND SUR DES DONNEES AUDIO-VISUELLES

DeepMind indique avoir formé son outil d’IA sur des vidéos, de l’audio et des annotations contenant des "descriptions détaillées du son et des transcriptions des dialogues parlés". Cela permet au générateur de vidéo-audio de faire correspondre les événements sonores avec les scènes visuelles.

DEFIS ET LIMITATIONS DE L’OUTIL

Cependant, l’outil présente encore certaines limites. Par exemple, DeepMind cherche à améliorer sa capacité à synchroniser les mouvements des lèvres avec le dialogue, comme on peut le voir dans cette vidéo d’une famille d’animation en pâte à modeler. DeepMind note également que son système vidéo-audio dépend de la qualité de la vidéo, de sorte que tout ce qui est granuleux ou déformé "peut entraîner une baisse notable de la qualité audio".

Sources: