Affiner un modèle LLM avec H2O LLM Studio pour générer des déclarations Cypher | par Tomaz Bratanic

COMMENT ÉVITER DE DÉPENDRE D’API EXTERNES ET CHANGEANTES POUR VOTRE CHATBOT BASÉ SUR DES GRAPHES DE CONNAISSANCES

Les grands modèles de langage tels que ChatGPT ont une date de coupure de connaissance au-delà de laquelle ils ne sont plus conscients des événements ultérieurs. Au lieu d’affiner les modèles avec des informations ultérieures, on a recours à fournir un contexte externe supplémentaire aux LLM au moment de la requête. Dans cet article, l’auteur explique comment il a employé les modèles de langage d’OpenAI dans ses exemples pour la création d’un bot à base de graphes de connaissance. Cependant, l’auteur met en garde contre l’utilisation de données confidentielles, car les employés de Samsung ont divulgué des données top secrètes en les entrant dans ChatGPT. L’auteur a donc cherché à tester plusieurs modèles open-source pour générer des déclarations Cypher, mais n’a pas réussi à en trouver aucun de manière fiable. La solution a été de mettre en place une formation fine pour un modèle LLM open-source qui génère des déclarations Cypher de manière fiable, ce qui a été possible grâce à l’outil d’H2O LLM Studio.

PRÉPARATION D’UN ENSEMBLE DE DONNÉES DE FORMATION

Pour mettre en place un chatbot doté de graphes de connaissances, il faut d’abord élaborer un ensemble de données pour la formation du modèle. L’auteur a cherché à trouver un moyen simple de démarrer sans maîtrise préalable de la formation des modèles NLP, c’est pourquoi il a utilisé l’outil H2O LLM Studio. Pour préparer l’ensemble de données, l’auteur a examiné le cahier de tutoriel de l’outil et a découvert qu’il pouvait gérer les données de formation fournies sous forme de fichier CSV. L’auteur a choisi 200 exemples de formation mais n’a pas voulu écrire manuellement les 200 déclarations Cypher correspondantes. Il a donc décidé d’utiliser GPT-4 pour ce travail, mais il prévient que certaines des déclarations générées peuvent ne pas correspondre à l’ensemble de données de recommandation de films que l’outil propose par défaut. L’auteur utilise ces déclarations comme point de départ et les vérifie ultérieurement manuellement pour éliminer les déclarations qui ne conviennent pas.

INSTALLATION DE L’H2O LLM STUDIO

L’auteur a installé l’outil H2O LLM Studio en deux étapes simples. Dans la première étape, il est nécessaire d’installer l’environnement Python 3.10 s’il n’est pas déjà présent. Dans la deuxième étape, il faut cloner le référentiel et installer les dépendances avec la commande “make install”. Après l’installation, l’auteur a pu exécuter le studio en tapant “make wave” et en ouvrant le site localhost:10101 dans un navigateur web.

CRÉATION DE L’EXPÉRIENCE

Pour créer une expérience et affiner un modèle LLM, il faut sélectionner l’ensemble de données à utiliser pour l’entraînement, la structure du modèle LLM et le nombre d’époques. L’auteur a conservé les autres paramètres par défaut, sans savoir précisément à quoi ils servaient. Il a pu choisir parmi les 13 modèles de LLM disponibles pour son expérience. Plus les paramètres sont nombreux, plus la RAM GPU est requise pour l’affinage et l’inférence. L’auteur conseille un minimum de 5 Go de RAM GPU pour les modèles LLM les plus petits et jusqu’à 40 Go pour les grands modèles. Après le lancement de l’expérience, l’interface fournit des métriques d’entraînement et une boîte de dialogue avec le modèle.

EXPORTATION DES MODÈLES VERS LE RÉFÉRENTIEL HUGGINGFACE

Il est possible d’exporter les modèles affinés vers le référentiel HuggingFace avec un simple clic. Cela permet d’utiliser les modèles LLM dans les workflows aussi facilement que possible. L’auteur a par exemple exporté un petit modèle pythia-1b dans son Google Colab pour générer des déclarations Cypher.