THÉORIE DE L’ESPRIT

La capacité à comprendre les états mentaux des autres est ce qui fait tourner le monde social des humains. C’est ce qui vous aide à décider quoi dire dans une situation tendue, deviner ce que les conducteurs d’autres voitures s’apprêtent à faire, et à éprouver de l’empathie pour un personnage dans un film. Selon une nouvelle étude, les grands modèles linguistiques (LLM) qui alimentent ChatGPT et autres sont étonnamment doués pour imiter cette caractéristique quintessentiellement humaine.

Avant de réaliser l’étude, nous étions tous convaincus que les grands modèles linguistiques ne réussiraient pas ces tests, surtout ceux qui évaluent subtilement les capacités à évaluer les états mentaux", déclare Cristina Becchio, coauteur de l’étude et professeure de neuroscience cognitive à l’Université Médicale de Hambourg-Eppendorf en Allemagne. Les résultats, qu’elle qualifie de "inattendus et surprenants", ont été publiés aujourd’hui, de manière ironique, dans le journal Nature Human Behavior.

Les résultats ne convainquent pas tout le monde que nous sommes entrés dans une nouvelle ère de machines qui pensent comme nous. Deux experts qui ont examiné les résultats ont conseillé de les prendre "avec un grain de sel" et ont mis en garde contre la prise de conclusions sur un sujet qui peut créer "hype et panique dans le public". Un autre expert extérieur a mis en garde contre les dangers de l’anthropomorphisation des programmes logiciels.

Les chercheurs veillent à ne pas dire que leurs résultats montrent que les LLM possèdent effectivement la théorie de l’esprit.

COMMENT TESTER LES LLM POUR LA THÉORIE DE L’ESPRIT

Les LLM et les humains ont tous deux réalisé cinq types typiques de tâches de théorie de l’esprit, les trois premiers étant la compréhension des indices, de l’ironie et des faux pas. Ils ont également répondu à des questions sur les "fausses croyances" souvent utilisées pour déterminer si les jeunes enfants ont développé la théorie de l’esprit. Enfin, ils ont répondu à des questions assez complexes sur des "histoires étranges" mettant en scène des mensonges, des manipulations et des malentendus.

Dans l’ensemble, le GPT-4 s’est distingué. Ses scores correspondaient à ceux des humains pour le test des fausses croyances, et étaient supérieurs aux scores agrégés des humains pour l’ironie, les indices et les histoires étranges ; il n’a performé que moins bien que les humains sur le test des faux pas. De manière intéressante, les scores du Llama-2 étaient l’opposé de ceux du GPT-4 – il correspondait aux humains sur les fausses croyances, mais avait des performances inférieures à celles des humains sur l’ironie, les indices et les histoires étranges et de meilleures performances sur les faux pas.

Pour comprendre les résultats des faux pas, les chercheurs ont soumis les modèles à une série de tests de suivi examinant plusieurs hypothèses. Ils en sont venus à la conclusion que le GPT-4 était capable de donner la bonne réponse à une question sur un faux pas, mais était freiné dans sa démarche par une programmation "hyperconservatrice" concernant les déclarations opinionnées.

Les chercheurs sont attentifs à ne pas dire que leurs résultats montrent que les LLM possèdent effectivement la théorie de l’esprit, et disent plutôt qu’ils "exhibent un comportement indiscernable du comportement humain dans les tâches de théorie de l’esprit."

CRITIQUES DE L’ÉTUDE

Les chercheurs ont clairement essayé d’éviter les problèmes méthodologiques qui ont valu des critiques à l’article de 2023 de Kosinski sur les LLM et la théorie de l’esprit. Par exemple, ils ont réalisé les tests sur plusieurs sessions pour que les LLM ne puissent pas "apprendre" les bonnes réponses pendant le test, et ils ont varié la structure des questions. Mais Goldberg et Shapira, deux des chercheurs en IA qui ont publié une critique de l’article de Kosinski, disent qu’ils ne sont pas convaincus par cette étude non plus.

Pourquoi importe-t-il que les systèmes de manipulation de texte puissent produire des réponses similaires à celles que les gens donnent lorsqu’ils sont confrontés aux mêmes questions ?

Goldberg a fait le commentaire sur le fait de prendre les résultats avec un grain de sel, ajoutant que les modèles ne sont pas des êtres humains, et qu’il est facile de tirer des conclusions erronées en les comparant. Shapira a parlé des dangers du hype, et a également remis en question les méthodes de l’article. Elle se demande si les modèles ont pu voir les questions du test dans leurs données d’entraînement et simplement mémorisé les bonnes réponses, et note également un problème potentiel avec les tests qui utilisent des participants humains payés (dans ce cas, recrutés via la plateforme Prolific).

Bender soulève également des préoccupations concernant l’anthropomorphisation qu’elle repère dans l’article, les chercheurs affirmant que les LLM sont capables de cognition, de raisonnement et de prise de décisions. Elle dit que la phrase des auteurs "comparaison équitable entre les LLM et les participants humains" est "totalement inappropriée en référence aux logiciels."

Les résultats peuvent ne pas indiquer que l’IA nous comprend vraiment, mais il est important de réfléchir aux répercussions des LLM qui imitent de manière convaincante le raisonnement de la théorie de l’esprit. Ils seront meilleurs pour interagir avec leurs utilisateurs humains et anticiper leurs besoins, mais pourraient aussi devenir meilleurs pour tromper ou manipuler leurs utilisateurs. Et ils encourageront davantage l’anthropomorphisation, en donnant l’impression aux utilisateurs humains qu’il y a un esprit de l’autre côté de l’interface utilisateur.