in

Intel et Nvidia s’affrontent lors des essais de vitesse de GPT-3.

Pour la première fois, un grand modèle de langage – un moteur clé de l’enthousiasme et de l’espoir récents en matière d’IA – a été ajouté à MLPerf, un ensemble de benchmarks d’entraînement de réseaux neuronaux qui ont été qualifiés précédemment d’Olympiades de l’apprentissage automatique. Les ordinateurs construits autour des processeurs H100 de Nvidia et des puces Gaudi2 d’Intel ont été les premiers à être testés sur la rapidité avec laquelle ils pouvaient effectuer un entraînement modifié de GPT-3, le grand modèle de langage derrière ChatGPT. Un ordinateur de 3 584 GPU, fruit d’une collaboration entre Nvidia et le fournisseur de services cloud CoreWeave, a réussi cette tâche en un peu moins de 11 minutes. Le plus petit concurrent, un système Gaudi2 de 256 puces, l’a fait en un peu plus de 7 heures. En termes de puces, les systèmes H100 étaient 3,6 fois plus rapides que les systèmes Gaudi2 pour cette tâche. Cependant, les ordinateurs Gaudi2 fonctionnaient « avec une main attachée dans le dos », explique Jordan Plawner, directeur principal des produits d’IA chez Intel, car une fonctionnalité appelée précision mixte n’a pas encore été activée sur les puces. Selon une estimation, le temps d’entraînement record de 11 minutes établi par Nvidia et CoreWeave correspondrait à environ deux jours d’entraînement à pleine échelle. Les informaticiens ont découvert que, pour le type de réseau neuronal de GPT-3, appelé réseau transformateur, l’entraînement peut être grandement accéléré en utilisant des calculs moins précis à certaines étapes du processus. Des versions de nombres flottants de 8 bits (FP8) peuvent être utilisées dans certaines couches du réseau, tandis que des nombres plus précis de 16 bits ou de 32 bits sont nécessaires dans d’autres. Il est important de déterminer quelles couches utilisent quelles précisions. Les systèmes H100 et Gaudi2 ont tous deux été construits avec des matériels à précision mixte, mais il a fallu du temps aux ingénieurs de chaque entreprise pour découvrir les bonnes couches et les activer. Le système de Nvidia dans le H100 s’appelle l’« engine transformer », et il était entièrement utilisé pour les résultats de GPT-3. Les ingénieurs de Habana feront en sorte que Gaudi2 dispose de la capacité FP8 pour l’entraînement de GPT-3 en septembre, déclare Plawner. À ce stade, explique-t-il, Gaudi2 sera « compétitif » avec H100, et il s’attend à ce que Gaudi2 surpasse H100 en termes de combinaison de prix et de performances. Gaudi2 est fabriqué avec la même technologie de processus – 7 nanomètres – que son prédécesseur, le A100. Rendre GPT-3 opérationnel Les grands modèles de langage et l’IA générative ont « fondamentalement changé la façon dont l’IA est utilisée sur le marché », explique Dave Salvatore, directeur de l’IA chez Nvidia et responsable de l’étalonnage des benchmarks et de l’informatique en cloud. Il était donc important de trouver un moyen de mesurer ces géants. Mais transformer GPT-3 en un benchmark industriel utile n’a pas été facile. Un entraînement complet du réseau complet à 1,75 milliard de paramètres avec l’ensemble complet des données d’entraînement pourrait prendre des semaines et coûter des millions de dollars. « Nous voulions que le temps d’exécution reste raisonnable », déclare David Kanter, directeur exécutif de l’organisation mère de MLPerf, MLCommons. « Mais c’est de loin le benchmark le plus exigeant en termes de calcul ». La plupart des réseaux de référence dans MLPerf peuvent être exécutés sur un seul processeur, mais GPT-3 nécessite au moins 64 processeurs. Au lieu de s’entraîner sur un ensemble de données complet, les participants s’entraînaient sur une partie représentative. Et ils ne s’entraînaient pas jusqu’à la complétion, ou convergence, comme on dit dans l’industrie. Les systèmes construits avec la puce Gaudi2 de Habana étaient les seuls systèmes non basés sur Nvidia à participer au benchmark initial de GPT-3 de MLPerf. Intel Pour déterminer ce point, la bonne fraction de données et d’autres paramètres afin que le benchmark soit représentatif de la tâche d’entraînement complète, il a fallu « beaucoup d’expériences », explique Ritika Borkar, architecte principal en deep learning chez Nvidia et présidente du groupe de travail sur l’entraînement de MLPerf. Sur Twitter, Abhi Venigalla, un chercheur à MosaicML, a estimé que l’exploit de 11 minutes réalisé par Nvidia et CoreWeave correspondrait à environ deux jours d’entraînement à pleine échelle. Enregistrements d’entraînement de H100 Cette édition de MLPerf ne concernait pas uniquement GPT-3, bien sûr ; le concours comprenait sept autres tests de référence : la reconnaissance d’images ; la segmentation d’images médicales ; deux versions de détection d’objets ; la reconnaissance vocale ; le traitement du langage naturel et la recommandation. Chaque système informatique est évalué en fonction de la durée d’entraînement du réseau neuronal sur un ensemble de données donné pour une précision particulière. Ils sont répartis en trois catégories : les systèmes informatiques en cloud, les systèmes disponibles sur place et les systèmes de prévisualisation, qui sont prévus pour devenir disponibles dans les six prochains mois. Pour ces autres tests, Nvidia s’est principalement opposé à lui-même. La plupart des participants étaient des fabricants de systèmes tels que Dell, Gigabyte, et autres, mais ils utilisaient presque tous des GPU Nvidia. Quatre-vingts des 88 inscriptions étaient alimentées par ces derniers, et environ la moitié d’entre eux utilisait le H100, une puce fabriquée à l’aide du procédé de Taiwan Semiconductors Manufacturing Co. de 5 nanomètres, livrée aux clients au quatrième trimestre de 2022. Soit les ordinateurs Nvidia, soit ceux de CoreWeave ont établi les records pour chacune des huit catégories. En plus d’ajouter GPT-3, MLPerf a considérablement amélioré son test de système de recommandation avec un benchmark appelé DLRM DCN-V2. « La recommandation est vraiment une chose essentielle à l’ère moderne, mais elle est souvent un héros méconnu », explique Kanter. En raison des risques liés aux informations personnelles identifiables dans l’ensemble de données, « la recommandation est en quelque sorte la chose la plus difficile à mesurer dans un benchmark », dit-il. Le nouveau DLRM DCN-V2 vise à mieux correspondre à ce que l’industrie utilise, dit-il. Il nécessite cinq fois plus d’opérations en mémoire, et le réseau est également plus complexe sur le plan computationnel. La taille de l’ensemble de données sur lequel il est formé est d’environ quatre fois plus grande que les 1 térabyte utilisés par son prédécesseur. Vous pouvez voir tous les résultats ici.

What do you think?

Leave a Reply

Your email address will not be published. Required fields are marked *

La dernière mise à jour logicielle de Polestar intègre YouTube et une version améliorée d’Apple CarPlay.

L’attrait singulier des vidéos YouTube ridiculement longues qui ne montrent rien intentionnellement