Pourquoi ChatGPT ment-il davantage dans certaines langues que dans d'autres?

# WHY CHATGPT LIES IN SOME LANGUAGES MORE THAN OTHERS

En avril 2021, NewsGuard, un organisme de surveillance des fausses informations, a mené une enquête sur ChatGPT, un modèle de langage basé sur l’intelligence artificielle créé en Chine. Les résultats ont montré que le modèle produisait davantage de désinformation lorsqu’on lui posait des questions en chinois qu’en anglais. Mais pourquoi donc une telle différence ?

## LE PROBLÈME DE L’ANTHROPOMORPHISME

Cela peut s’expliquer, en partie, par l’anthropomorphisme que nous appliquons aux systèmes d’intelligence artificielle. Nous avons tendance à croire qu’ils possèdent une connaissance interne, qu’ils expriment simplement dans la langue sélectionnée. Or, les modèles de langage ne sont pas des personnes. Ce sont des outils statistiques qui identifient des motifs dans une série de mots et prédisent les mots suivants en fonction de leurs données d’entraînement.

Lorsqu’on demande une réponse en anglais, le modèle utilise principalement toutes les données de langage anglais qu’il possède. De même, lorsqu’on demande une réponse en chinois traditionnel, il utilise principalement toutes les données de langage chinois traditionnel qu’il possède. Les deux ensembles de données peuvent se chevaucher, mais ils restent distincts et indépendants l’un de l’autre.

Ainsi, lorsque ChatGPT répond à des questions politiques en chinois, il reproduit les désinformations qui ont été présentes dans les données de chinois traditionnel qu’on lui a fournies. En revanche, lorsqu’il répond à des questions en anglais, il ne reproduit pas ces mêmes désinformations.

## LES CONSÉQUENCES SUR L’UTILISATION DE L’IA

Cela soulève des problèmes pour les utilisateurs des modèles de langage. Il est déjà difficile de savoir si un modèle de langage répond avec précision ou s’il produit simplement des délires erronés. Ajouter une barrière de langue ne fait qu’ajouter à la difficulté.

Ceci peut être particulièrement troublant pour les gens qui travaillent avec des modèles de langage dans des langues autres que l’anglais. En termes de données d’entraînement, l’anglais est souvent la langue la plus représentée. Par conséquent, les résultats du modèle dans d’autres langues peuvent ne pas être aussi précis.

Cela dit, cela ne signifie pas que les grands modèles de langage ne sont utiles qu’en anglais ou dans les langues les mieux représentées dans leur jeu de données. Les modèles de langage peuvent fournir des réponses précises même s’ils sont entraînés avec des données de langage moins courantes. L’astuce est de rester vigilant lorsqu’on utilise ces modèles et de considérer leur réponse d’un oeil critique.

## CONCLUSION

Nous sommes encore loin de comprendre pleinement le fonctionnement des modèles de langage basés sur l’IA. Des recherches récentes montrent que ces modèles sont sujets à des biais culturels et à des désinformations. Nous avons besoin de plus d’études pour comprendre comment ces biais se produisent et comment nous pouvons travailler avec eux.

En fin de compte, lorsque nous utilisons des modèles de langage basés sur l’IA, la prudence doit être de mise. Nous devrions les considérer comme des outils, plutôt que comme des oracles. Il est de notre responsabilité de poser les bonnes questions et de faire preuve d’esprit critique envers leurs réponses.

Sources en ligne :

– NewsGuard – [ChatGPT Shows a Serious Accuracy Gap Between Chinese and English Language Misinformation](https://www.newsguardtech.com/special-reports/chatgpt-generates-disinformation-chinese-vs-english/)
– TechCrunch – [Why ChatGPT lies in some languages more than others](https://techcrunch.com/2021/05/03/why-chatgpt-lies-in-some-languages-more-than-others/)