Les entreprises technologiques se sont lancées dans une course pour construire les plus grands modèles de langage (LLMs). Par exemple, en avril, Meta a annoncé le modèle Llama 3 de 400 milliards de paramètres, ce qui représente le double du modèle ChatGPT original d’OpenAI de 2022. Bien que non confirmé, on estime que le GPT-4 compte environ 1,8 billion de paramètres.
Cependant, ces derniers mois, certaines des plus grandes entreprises technologiques, dont Apple et Microsoft, ont introduit des modèles de langage plus petits (SLMs). Bien que beaucoup plus petits que leurs homologues LLM, ces modèles peuvent rivaliser voire surpasser ces derniers dans la génération de texte.
Le 10 juin, lors de la Conférence mondiale des développeurs d’Apple, la société a présenté ses modèles “Apple Intelligence” qui comportent environ 3 milliards de paramètres. Plus tard en avril, Microsoft a lancé sa famille de SLM Phi-3, comprenant des modèles avec entre 3,8 milliards et 14 milliards de paramètres.
Le PDG d’OpenAI, Sam Altman, estime que nous sommes à la fin de l’ère des grands modèles. Dans une série de tests, le plus petit modèle de la série de Microsoft, Phi-3-mini, a rivalisé avec le GPT-3.5 d’OpenAI (175 milliards de paramètres) et a surpassé Gemma de Google (7 milliards de paramètres). Les tests ont évalué la compréhension du langage en lui posant des questions sur les mathématiques, la philosophie, le droit, etc.
Ce qui est encore plus intéressant, le Phi-3-small de Microsoft, avec 7 milliards de paramètres, s’en est remarquablement mieux sorti que le GPT-3.5 dans de nombreux de ces tests. Aaron Mueller, chercheur en modèles de langage à l’Université Northeastern de Boston, n’est pas surpris que les SLMs puissent rivaliser avec les LLMs dans certaines fonctions.
Il explique que l’augmentation du nombre de paramètres n’est pas le seul moyen d’améliorer la performance d’un modèle; le former sur des données de meilleure qualité peut également donner des résultats similaires. Les modèles Phi de Microsoft ont été entraînés sur des données affinées de qualité “de manuel”, selon Mueller, ce qui permet une meilleure compréhension que les textes très diversifiés présents sur Internet et sur lesquels les LLMs se basent généralement. De même, Apple a entraîné exclusivement ses SLMs sur des ensembles de données plus riches et complexes.
L’essor des SLMs survient à un moment où l’écart de performance entre les LLMs se réduit rapidement et où les entreprises technologiques cherchent à s’éloigner des lois d’échelle standards pour explorer d’autres moyens d’amélioration des performances. Sam Altman d’OpenAI a déclaré lors d’un événement en avril qu’il croyait que nous étions à la fin de l’ère des grands modèles et que nous “les rendrions meilleurs d’autres manières”.
Étant donné que les SLMs ne consomment pas autant d’énergie que les LLMs, ils peuvent être exécutés localement sur des appareils comme les smartphones et les ordinateurs portables (au lieu dans le cloud) pour préserver la confidentialité des données et les personnaliser pour chaque personne. En mars, Google a lancé Gemini Nano sur la ligne de smartphones Pixel de l’entreprise. Le SLM peut résumer des enregistrements audio et fournir des réponses intelligentes aux conversations sans connexion Internet. Apple devrait faire de même plus tard cette année.
Les SLMs peuvent également démocratiser l’accès aux modèles de langage, selon Mueller. Jusqu’à présent, le développement de l’IA a été concentré entre les mains de quelques grandes entreprises capables de déployer des infrastructures haut de gamme, tandis que d’autres opérations et laboratoires plus petits ont dû les licencier à des prix élevés. Étant donné que les SLMs peuvent être entraînés plus facilement sur du matériel plus abordable, ils sont plus accessibles à ceux disposant de ressources limitées mais suffisamment capables pour des applications spécifiques.
En outre, les SLMs peuvent aider à améliorer l’IA générative et à avancer vers la construction d’une IA responsable et interprétable, permettant aux chercheurs d’identifier et de corriger les problèmes spécifiques des LLMs à la source. Les chercheurs comme Alex Warstadt, chercheur en informatique à l’ETH de Zurich, estiment que les SLMs pourraient offrir de nouvelles et fascinantes perspectives sur le processus d’acquisition du langage chez les enfants et aider à améliorer l’IA générative.
En optimisant l’entraînement des modèles de langage sur de petites données, les SLMs pourraient potentiellement déverrouiller de nouveaux secrets de la cognition humaine et aider à améliorer l’efficacité des chatbots en langues. Alors que personne ne sait encore ce qui rend les humains beaucoup plus efficaces dans l’apprentissage, l’ingénierie inverse d’un apprentissage humain efficace à petite échelle pourrait conduire à d’énormes améliorations à grande échelle.