LES MODELES DE LANGAGE COÛTENT PLUS CHER DANS CERTAINES LANGUES QUE DANS D’AUTRES
Les grands modèles de langage tels que ChatGPT traitent et génèrent des séquences de texte en divisant d’abord le texte en unités plus petites appelées jetons. Ce processus de tokenisation n’est pas uniforme dans toutes les langues, ce qui entraîne des disparités dans le nombre de jetons produits pour des expressions équivalentes dans différentes langues. Par exemple, une phrase en birman ou en amharique peut nécessiter 10 fois plus de jetons qu’un message similaire en anglais. Cette inégalité a des implications pour l’IA, car cela signifie que certaines langues ont besoin de plus de jetons (pour tokeniser le même message dans une autre langue), entraînant des coûts plus élevés pour exécuter les modèles de langage. GPT-3 de OpenAI ne prend en charge qu’un nombre limité de jetons, ce qui limite la quantité d’informations que l’on peut mettre dans le prompt. En outre, la tokenisation des langues non anglophones est un problème majeur dans le domaine du traitement du langage naturel.
L’ANALYSE DE LA TOKENISATION DANS LES DIFFERENTES LANGUES
Le processus de tokenisation n’est pas uniforme à travers les différentes langues, ce qui conduit à des disparités dans le nombre de jetons produits pour des expressions équivalentes dans différentes langues. L’auteur a utilisé le BPE tokenizer d’OpenAI pour calculer le nombre de jetons dans les textes. Les langues telles que l’arménien ou le birman nécessitent 9 à 10 fois plus de jetons que l’anglais pour tokeniser des messages similaires.
Certaines langues consistent en un plus grand nombre de jetons. La courbe pour l’anglais est étroite, ce qui signifie que les textes anglais sont souvent divisés en moins de jetons. En revanche, les courbes pour des langues telles que l’hindi et le birman sont courtes et larges, ce qui signifie que ces langues ont tendance à diviser les textes en un plus grand nombre de jetons.
L’IMPACT DE LA DISPARITE DE LANGUE
La disparité des jetons peut entraîner une limitation de la quantité d’informations que l’on peut mettre dans le prompt, affecter les coûts et la durée d’exécution des modèles de langage. Les modèles de langue sont largement utilisés dans le monde entier, mais cela peut avoir un impact plus important dans les pays où l’anglais n’est pas dominant. Il est donc crucial de comprendre et de traiter ces disparités pour garantir une représentation et des performances linguistiques équitables dans les technologies activées par l’IA.
L’EXEMPLE HISTORIQUE : LA TYPOGRAPHIE CHINOISE EN CODE MORSE
Il y a plus de 100 ans, la télégraphie avait des inégalités linguistiques similaires à celles que nous voyons aujourd’hui dans les grands modèles de langage. Malgré ses promesses de libre échange et de collaboration, la télégraphie présentait des disparités de vitesse et de coût d’encodage et de transmission en fonction des langues. Le code Morse a attribué des longueurs et des coûts différents aux points et aux tirets, ce qui a donné un système rentable pour l’anglais. Cependant, la langue chinoise, qui repose sur des idéogrammes, a rencontré des défis en télégraphie. Un français nommé Viguier a élaboré un système de cartographie pour les caractères chinois en code Morse, mais cela a pris beaucoup de temps pour rechercher les codes dans le livre de codes. Cela a finalement coûté plus cher à transmettre car chaque caractère était représenté par quatre chiffres, tandis qu’un unique chiffre coûtait moins cher.
BREF
La tokenisation peut avoir un impact significatif sur les coûts et la durée d’exécution des modèles de langage, affectant les performance de l’IA. Les inégalités linguistiques dans les technologies activées par l’IA peuvent renforcer les inégalités économiques, sociales et culturelles existantes. Il est crucial de comprendre et de traiter ces inégalités pour garantir une représentation et des performances équitables.