PROBLÈMES AVEC LES GRANDS MODÈLES DE LANGAGE

Un des principaux problèmes avec les grands modèles de langage qui alimentent les chatbots comme ChatGPT est que l’on ne sait jamais quand on peut leur faire confiance. Ces modèles peuvent générer un texte clair et cohérent en réponse à n’importe quelle question, et une grande partie des informations qu’ils fournissent est précise et utile. Cependant, ils peuvent aussi halluciner – en d’autres termes, inventer des choses – et ces hallucinations sont présentées de manière claire et cohérente, laissant à l’utilisateur humain le soin de détecter les erreurs. Ils sont également obséquieux, essayant de dire aux utilisateurs ce qu’ils veulent entendre. Vous pouvez tester cela en demandant à ChatGPT de décrire des événements qui ne se sont jamais produits et en vérifiant ses réponses tout à fait plausibles.

OPENAI PREND DES MESURES POUR AMÉLIORER LA VÉRACITÉ DES MODÈLES DE LANGAGE

OpenAI a récemment fait un pas en avant pour résoudre ce problème en développant un outil qui aiderait les humains à guider le modèle vers la vérité et la précision. Leur dernier travail se concentre sur l’apprentissage par renforcement à partir des retours humains, une technique importante pour affiner un modèle de langage de base et le rendre adapté à une utilisation publique. En utilisant cette technique à grande échelle, il est possible de créer des modèles plus précis, moins racistes, plus polis, moins enclins à fournir des recettes pour des armes biologiques, etc.

CRITICGPT: UN NOUVEL OUTIL POUR AMÉLIORER LES MODÈLES DE LANGAGE

Pour résoudre les défis liés à l’apprentissage par renforcement à partir des retours humains, OpenAI a formé un modèle appelé CriticGPT pour évaluer les réponses de ChatGPT. Les résultats des expériences avec CriticGPT se sont révélés encourageants, montrant que ce modèle pouvait attraper beaucoup plus d’erreurs que des humains qualifiés payés pour la révision de code.

LIMITATIONS ET AVENIR DE LA RECHERCHE D’ALIGNEMENT

Il est important de noter les limitations de cette recherche, y compris son focus sur de courts extraits de code. Bien que les chercheurs aient mentionné une expérience préliminaire utilisant CriticGPT pour repérer les erreurs dans les réponses textuelles, il reste encore beaucoup à explorer dans ce domaine. En outre, les chercheurs soulignent que CriticGPT n’est peut-être pas suffisamment fort pour aider dans des situations où il faut éviter les biais négatifs et fournir des réponses acceptables sur des sujets controversés.

L’AVENIR DE LA RECHERCHE EN IA D’ALIGNEMENT

La nouvelle recherche en matière d’alignement est encourageante et montre que les chercheurs d’OpenAI sont toujours actifs dans ce domaine malgré les récents changements au sein de l’organisation. Leur travail sur CriticGPT illustre comment l’utilisation de l’intelligence artificielle peut aider à améliorer les processus de feedback et à former des modèles plus alignés avec les objectifs humains.

Références: