L'entreprise Meta rend accessible en open-source son modèle d'IA multimodal qui combine six types de données sensorielles.

# META annonce un nouveau modèle d’IA open source pour une expérience immersive multisensorielle

META a annoncé le lancement d’un nouveau modèle d’IA open source qui lie plusieurs flux de données, y compris textuels, audio, visuels, de température et de mouvement, pour créer des expériences multisensorielles.

Le modèle appelé ImageBind est pour l’instant un projet de recherche, avec aucune application pratique immédiate pour les consommateurs. Il montre toutefois la voie à suivre vers des systèmes d’IA générative capables de créer des expériences immersives multisensorielles.

META continue de partager des recherches en IA dans un contexte où des concurrents comme OpenAI ou Google deviennent de plus en plus secrets sur leur recherche en IA.

# Des modèles d’IA multimodaux à la base du boom de l’IA générative

Les modèles d’IA multimodaux, qui permettent de croiser différentes sources d’information, sont à la base du développement de l’IA générative. Par exemple, des générateurs d’images comme DALL-E, Stable Diffusion et Midjourney utilisent des systèmes qui lient le texte et les images durant la phase d’apprentissage afin de créer des images en fonction des textes proposés.

META affirme que son modèle ImageBind est le premier à combiner six types de données différents en un seul espace de liage (ou « embedding space »). Ces types de données sont la vidéo et l’image, les images thermiques, le texte, l’audio, l’information de profondeur et les mouvements captés par les IMUs (qui se trouvent dans les téléphones et les montres connectées, et qui sont utilisés pour des tâches comme la reconnaissance de l’activité physique ou la rotation de l’écran).

# Le lien entre les données pour créer des expériences immersives multisensorielles

À l’avenir, les systèmes d’IA pourront croiser les données de différentes sources, grâce à des modèles comme ImageBind. Imaginez par exemple un dispositif de réalité virtuelle futuriste qui non seulement génère des entrées audio et visuelles, mais aussi votre environnement et votre mouvement sur une scène physique. Vous pourriez demander à ce dispositif de recréer une longue traversée en mer, qui vous placerait sur un navire avec le bruit des vagues en fond sonore, en plus des mouvements de roulis sur le pont et de la brise maritime froide sur votre visage.

META a déclaré qu’il serait possible d’ajouter d’autres flux d’entrée de données dans les futurs modèles, tels que le toucher, la parole, l’odorat ou les signaux cérébraux émis par les IRM.

# La question de l’open source en IA

META fait partie des entreprises qui ont choisi de rendre leurs recherches en IA open source, afin de permettre à des tiers de vérifier les systèmes et d’améliorer leur fonctionnement. Cette démarche est toutefois controversée par certains, qui estiment que l’open source permet à des concurrents de copier des travaux et expose les chercheurs à des risques.

# Une entreprise ouverte dans ses recherches en IA

META est plutôt connue pour son ouverture en matière de recherche en IA, malgré quelques difficultés rencontrées (comme la fuite de son dernier modèle de langage, LLaMA, plus tôt cette année). Cette stratégie est permise en partie par le fait que l’entreprise ne possède pas encore de chatbot comparable à Bing, Bard ou ChatGPT.

Sources:
https://www.futura-sciences.com/tech/actualites/infographie-meta-ia-genere-descriptif-image-fait-video-97805/
https://www.futura-sciences.com/tech/actualites/ia-meta-reussit-fabriquer-image-soi-partir-texte-25918/