Lors de la conférence Meta Connect, Mark Zuckerberg a montré les avancées de sa technologie Codec Avatar. Mais la modélisation ultra-réaliste de son visage est encore loin d’être accessible.
“De grâce, ne faites pas croire aux gens que l’on peut faire de l’hyper-réaliste à pas cher. Aujourd’hui, c’est faux”, tranche d’emblée Vincent Haeffner, le directeur de la production d’Effigy, un studio spécialisé dans la création numérique et la modélisation humaine.
Pourtant, cette technologie, Mark Zuckerberg a bien tenté de la vendre au grand public le 11 octobre. Lors de la conférence Meta Connect, le patron de Facebook est apparu sous la forme d’un avatar ultra-réaliste. Effet waouh garanti tant les traits virtuels, les mimiques, le grain de peau semblaient plus vrais que nature.
La technologie Codec Avatar – désormais en version 2.0 – est d’ailleurs un des grands enjeux de Facebook pour nous plonger dans son univers, ou plutôt dans son métavers. Mieux, le groupe espère bien le faire “à pas cher” en utilisant un smartphone pour scanner son visage en quelques secondes.
Une quantité faramineuse de données
Dévoilé en 2019, le projet Codec Avatar a pour objectif de briser les barrières de la réalité virtuelle pour reproduire l’authenticité d’un échange entre deux personnes en physique. L’idée est de ne plus distinguer l’avatar de la personne grâce à une modélisation extrêmement fidèle. Mais pour cela, un passage dans un studio de motion capture est obligatoire. Une technologie lourde pour le commun des mortels.
Dans son laboratoire américain de Pittsburgh, dans l’État de Pennsylvanie, Facebook a installé deux équipements de la sorte. Au total, des centaines de caméras capturent des données à un rythme de 1Go par seconde. En 2019, l’entreprise indiquait que la capture prenait environ 15 minutes. Pour symboliser le gigantisme d’une telle opération, un ordinateur équipé d’un disque dur de 512 Go serait saturé en l’espace de trois secondes.
Cette quantité faramineuse de données est ensuite traitée par photogrammétrie. Cette technique permet de déterminer les dimensions et les volumes d’un objet – ici d’un visage – à partir de mesures effectuées sur des photographies montrant les perspectives de ces objets.
10 mois pour créer l’avatar Aya Nakamura
“Il y a plusieurs étapes, explique Vincent Haeffner. D’abord il faut créer le volume du visage. Ensuite, il faut mettre en place tout un système d’animation de squelette, puis la cavité buccale, la bouche, la langue. Une fois que le modèle est prêt à être animé, c’est presque facile.”
Seul problème, “il n’existe pas d’application pour fabriquer un mech (le modèle numérique d’un objet, ndlr) de manière automatique”, assure Vincent Haeffner.
Aujourd’hui, la manœuvre reste artisanale, confirme Louis de Castro, le patron de Mado XR. Spécialisée dans la création numérique, cette jeune entreprise française a travaillé sur le spectacle d’Aya Nakamura dans Fortnite début octobre. Elle s’est chargé de la vidéo retransmise dans les écrans géants du jeu vidéo pendant le show interactif de la chanteuse franco-malienne.
“Il a fallu 10 mois pour créer la vidéo, confie Louis de Castro. Nous avons scanné Aya Nakamura, enregistré la performance et ensuite animé l’avatar de la chanteuse.”
Une preuve de plus que la création d’un avatar en 3D réaliste n’est pas une chose rapide. D’ailleurs, Mark Zuckerberg a bien conscience des freins que sa technologie peut représenter. C’est pourquoi il a dévoilé l’Instant Codec Avatar.
il s’agit d’une version “dégradée” de la technologie: plus besoin de studio de capture mais le résultat reste bluffant, comme le montre la vidéo de présentation.
Un smartphone suffirait ainsi en cas de luminosité suffisante. Néanmoins, lors du test, l’entreprise a pris soin d’utiliser un iPhone car l’appareil d’Apple dispose d’un capteur lidar aidant grandement à une captation correcte des visages.
Durant deux minutes, la personne se filme ainsi avec un visage neutre, puis en effectuant des expressions. Cette vidéo est ensuite envoyée aux serveurs de Facebook, qui la découpent en images. Ces données sont ensuite traitées par un ordinateur de calcul ou un serveur dédié. Ce n’est que plusieurs heures plus tard que la personne récupère son avatar prêt à être animé. Sans surprise donc, Facebook tente de réduire son délai de traitement pour retourner un avatar à ses utilisateurs après l’envoi de leur vidéo.
“C’est aujourd’hui l’un des enjeux de notre activité: simplifier ce traitement qui transforme les photos en un objet 3D”, reconnaît le patron de Mado XR, qui estime que la technologie Instant Codec Avatar pourrait être déployé d’ici un an.
Mais outre cette solution dégradée dont l’usage pourrait suffire dans le métavers, la version ultra-réaliste de Mark Zuckerberg pose problème. Il ne s’agit pas tant de la modélisation: depuis cet été, Epic Games met à disposition des outils gratuits pour concevoir son propre avatar à partir de photos. Le résultat est certes moins fin qu’avec Codec Avatar 2.0, mais plus réaliste qu’Instant Codec Avatar.
Google est aussi sur le coup
La vraie difficulté pour Meta provient du flux de données à traiter. Il est trop important pour espérer obtenir une animation d’avatar en temps réel dans le métavers. Surtout que le patron de Facebook joue avec les reflets de la lumière sur son visage, une fonctionnalité très consommatrice en calculs informatiques.
Cette limitation par la quantité de données à gérer, Google devrait s’y confronter également avec son Project Starline. L’entreprise travaille sur un écran permettant de filmer une personne et afficher son interlocuteur. La promesse est de tromper l’œil humain pour simuler des vraies conversations en face-à-face, mais à distance.
Pour y parvenir, plus d’une douzaine de caméras et capteurs filment et suivent la personne. La prouesse vient de la compression instantanée de ces données pour les envoyer instantanément sur l’écran de son interlocuteur. De plus, il faut compter avec un affichage 3D qui permet de simuler le relief d’une personne assise en face de soi.
Si le rendu est immersif, il n’est pas encore parfait, estime The Verge. Un programme d’accès anticipé a été mis en place pour équiper une centaine d’entreprises de cet outil, affectueusement appelé “fenêtre magique” par Andrew Nartker, le directeur de la gestion des produits pour Project Starline.
Par leurs barrières financières ou technologiques, ces technologies ne semblent pas encore à la portée du grand public. Les interactions sociales ont besoin de davantage de réalisme pour combler le sentiment d’isolement parfois ressenti. Mais pour l’heure, il faudra se contenter d’avatars tout droit sortis d’un dessin animé… et sans jambes.