Les puces géantes défient les supercalculateurs pour leur argent.

AVANCER DANS LE MONDE MOLÉCULAIRE

Alors que les supercalculateurs continuent de s’agrandir, la société basée à Sunnyvale, en Californie, Cerebras, adopte une approche différente. Plutôt que de connecter de plus en plus de GPU ensemble, l’entreprise cherche à mettre autant de processeurs que possible sur une seule puce géante. L’avantage principal réside dans les interconnexions : en reliant les processeurs sur la puce, la puce à l’échelle du wafer contourne bon nombre des pertes de vitesse de calcul qui découlent de la communication entre de nombreux GPU, ainsi que des pertes liées au chargement des données vers et depuis la mémoire.

Maintenant, Cerebras a vanté les avantages de ses puces à l’échelle du wafer dans deux résultats distincts mais liés. Tout d’abord, la société a démontré que sa deuxième génération de moteur à l’échelle du wafer, le WSE-2, était significativement plus rapide que le supercalculateur le plus rapide du monde, Frontier, dans les calculs de dynamique moléculaire – domaine sous-jacent du pliage des protéines, de la modélisation des dommages par rayonnement dans les réacteurs nucléaires et d’autres problèmes en science des matériaux. Deuxièmement, en collaboration avec la société d’optimisation de modèles d’apprentissage automatique Neural Magic, Cerebras a démontré qu’un modèle de langage large clairsemé pouvait effectuer des inférences à un tiers du coût énergétique d’un modèle complet sans perdre en précision. Bien que les résultats concernent des domaines très différents, ils étaient tous deux possibles grâce aux interconnexions et à l’accès rapide à la mémoire permis par le matériel de Cerebras.

REDUIRE LA TAILLE DES GRANDS MODELES DE LANGUE

Alors que les grands modèles de langage (LLM) deviennent de plus en plus populaires, les coûts énergétiques de leur utilisation commencent à éclipser les coûts de formation – potentiellement jusqu’à un facteur de dix selon certaines estimations. "L’inférence est la charge de travail principale de l’IA aujourd’hui car tout le monde utilise ChatGPT", déclare James Wang, directeur du marketing produit chez Cerebras, "et c’est très coûteux à exécuter, surtout à grande échelle".

Une façon de réduire le coût énergétique (et la vitesse) de l’inférence est la clairsemée – essentiellement, exploiter la puissance des zéros. Les LLM sont composés de nombres énormes de paramètres. Le modèle open-source Llama utilisé par Cerebras, par exemple, comporte 7 milliards de paramètres. Pendant l’inférence, chacun de ces paramètres est utilisé pour traiter les données d’entrée et produire la sortie. Cependant, si une fraction significative de ces paramètres sont des zéros, ils peuvent être ignorés pendant le calcul, ce qui permet d’économiser du temps et de l’énergie.

SOURCES

What do you think?

Written by Mathieu

Leave a Reply

Your email address will not be published. Required fields are marked *

La caméra argentique Rollei 35AF de MiNT arrive cette année, et elle a l’air géniale.

Les 30 meilleures idées cadeaux de dernière minute pour la fête des pères