LES MODÈLES DE LANGAGE GÉANTS ET LEUR AVANCE TECHNOLOGIQUE

Les grands modèles de langage, ces systèmes d’IA qui alimentent les chatbots comme ChatGPT, s’améliorent de plus en plus, mais ils deviennent également de plus en plus grands, demandant plus d’énergie et de puissance de calcul. Pour rendre les LLM bon marché, rapides et respectueux de l’environnement, ils devront se réduire, idéalement suffisamment petits pour fonctionner directement sur des appareils comme les téléphones mobiles. Les chercheurs trouvent des moyens d’y parvenir en arrondissant considérablement les nombreux nombres à haute précision qui stockent leurs mémoires pour les égaliser à seulement 1 ou -1.

COMMENT CRÉER UN LLM À 1 BIT

Il existe deux approches générales. Une approche, appelée quantification après l’entraînement (PTQ), consiste à quantifier les paramètres d’un réseau à pleine précision. L’autre approche, la formation sensible à la quantification (QAT), consiste à former un réseau à partir de zéro pour avoir des paramètres de faible précision. Jusqu’à présent, le PTQ a été plus populaire chez les chercheurs.

LES LLM À 1 BIT RENCONTRENT LE SUCCES FACE À LEURS GRANDS COUSINS

L’année dernière, une équipe dirigée par Furu Wei et Shuming Ma, de Microsoft Research Asia, à Pékin, a créé BitNet, la première méthode de QAT à 1 bit pour les LLM. Après avoir modifié le taux d’ajustement des paramètres du réseau pour stabiliser la formation, ils ont créé des LLM qui se comportaient mieux que ceux créés en utilisant des méthodes PTQ. Ils n’étaient toujours pas aussi bons que les réseaux à pleine précision, mais étaient environ 10 fois plus économes en énergie.

LES AVANTAGES DES MODÈLES QUANTIFIÉS

Les modèles quantifiés présentent plusieurs avantages. Ils peuvent tenir sur des puces plus petites, ils ne nécessitent pas de transfert de données entre la mémoire et les processeurs, et ils permettent un traitement plus rapide. Les LLM fonctionnent souvent sur des GPU comme ceux fabriqués par Nvidia, qui représentent les poids avec une précision plus élevée et consacrent la majeure partie de leur énergie à les multiplier. Les nouveaux matériels pourraient représenter nativement chaque paramètre comme un -1 ou 1 (ou 0), puis simplement ajouter et soustraire des valeurs, évitant la multiplication.

ENRICHISSIR LES DÉBATS SUR L’IA

Les recherches actuelles sur les LLM à 1 bit ouvrent la voie à de nouvelles possibilités d’optimisation des systèmes pour l’avenir de l’IA. Les avancées technologiques dans ce domaine sont prometteuses et pourraient révolutionner la manière dont nous utilisons les réseaux neuronaux artificiels. Restez informés des dernières découvertes et des progrès passionnants dans le domaine de l’intelligence artificielle !