COMMENT LA MÉTHODE HUMBLE DE PRÉDICTION NOUS MONTRE LE CHEMIN DE L’IA GÉNÉRATIVE
L’intelligence artificielle générative est un sujet d’écriture très répandu, avec des essais consacrés à ses applications, aux problèmes éthiques et moraux, ainsi qu’aux risques qu’elle présente pour la société humaine. Si vous voulez comprendre la technologie elle-même, il y a plusieurs ressources disponibles, allant des articles et vidéos d’introduction aux documents de recherche originaux. Cet article s’adresse à un public spécifique de lecteurs ayant étudié les techniques d’apprentissage automatique, sans pour autant en faire leur spécialité. Ils savent que la prédiction et la classification sont les deux principaux cas d’utilisation de l’apprentissage automatique couvrant la plupart de ses applications. Ils ont également étudié les algorithmes courants tels que la régression linéaire, la régression logistique, les machines à vecteurs de support, les arbres de décision, ainsi qu’un peu de réseaux de neurones. Ils ont même peut-être codé quelques petits projets en langage Python en utilisant des bibliothèques telles que Scikit-Learn, et utilisé des modèles TensorFlow pré-entraînés tels que ResNet. Beaucoup d’étudiants et de professionnels peuvent se reconnaître dans cette description.
LE MODE DE PRÉDICTION HUMBLE COMME UN CAS SPÉCIAL D’IA GÉNÉRATIVE
Les lecteurs de ce profil peuvent se demander: l’IA générative est-elle un nouveau type de cas d’utilisation pour l’apprentissage automatique? Elle semble certainement différente de la prédiction et de la classification. Le jargon utilisé peut facilement dissuader d’essayer de comprendre l’IA générative. Des termes tels que “transformers”, “multi-head attention”, “large language models”, “foundational models”, “sequence to sequence”, et “prompt engineering” peuvent vous convaincre qu’il s’agit d’un monde très différent de celui de la prédiction-classification que nous avons l’habitude de connaître.
Cet article vous fait comprendre que l’IA générative n’est qu’un cas spécial de prédiction. Si vous êtes un passionné d’apprentissage automatique ayant les caractéristiques décrites précédemment, vous pouvez comprendre le fonctionnement basique de l’IA générative en sept étapes simples. Nous commençons par la régression linéaire, la technique d’apprentissage machine que tout le monde connaît. Dans cet article, nous nous concentrerons sur une branche particulière de l’IA générative appelée “Large Language Models” (LLM), principalement parce que le très populaire ChatGPT appartient à cette branche.
La régression linéaire identifie la meilleure ligne qui représente les points de données fournis. Une fois que cette ligne est trouvée, elle est utilisée pour prédire la sortie pour une nouvelle entrée. Nous pouvons écrire le modèle de régression linéaire sous forme d’une fonction mathématique, facile à comprendre :
nouvelle sortie = fonction linéaire (nouvelle entrée)
Nous pouvons également dessiner un schéma pour cela : c’est la prédiction la plus élémentaire. Un modèle de régression linéaire ‘apprend’ la meilleure ligne et l’utilise pour prédire.
Ensuite, nous abordons le problème où les données doivent correspondre à des formes non linéaires ; les réseaux de neurones ont été développés pour résoudre ce problème. Les réseaux de neurones ne nécessitent pas que l’on décide quelle fonction ils doivent apprendre, ils la trouvent eux-mêmes et l’apprennent, aussi complexe soit-elle. Une fois qu’un réseau neuronal apprend la fonction complexe à plusieurs entrées, il l’utilise pour la prédiction. Nous pouvons écrire cette nouvelle équation sous forme de vecteurs :
vecteur de sortie = fonction du réseau de neurones (vecteur d’entrée)
Si le problème nécessite de travailler avec des mots d’un langage, nous devons d’abord les convertir en vecteurs. Cette série de vecteurs correspondant aux mots dans une langue est appelée un “embedding”. Une fois que nous avons des vecteurs pour les mots, nous pouvons les utiliser pour la prédiction de plusieurs tâches linguistiques.
Comment pouvons-nous utiliser cette méthode de prédiction pour les traductions ? Nous pouvons commencer par une approche naïve en transformant chaque mot de la phrase d’entrée en son équivalent dans une autre langue. Nous pouvons ensuite demander à un réseau neuronal de prédire un seul mot, à savoir celui qui sera le premier dans la phrase de sortie. Le premier problème avec cette approche naïve est que la traduction d’un mot dépend des autres mots de la phrase. Nous résolvons cela en donnant au réseau neuronal plus de contexte pour déterminer la traduction appropriée. Nous appliquons ensuite une attention aux statistiques pour déterminer la signification et l’ordre des mots de la phrase.
CONCLUSION
L’IA générative est donc simplement un cas spécial de prédiction. En utilisant la compréhension de base de la prédiction en sept étapes simples, nous avons vu comment l’IA générative peut être utilisée pour résoudre des problèmes très complexes. L’évolution continue de la technologie nous montrera comment une nouvelle percée permettra de résoudre des problèmes anciens et nouveaux en utilisant des approches et des techniques de prédiction plus complexes.