UNE COMPARAISON PRATIQUE DE CHATGPT ET D’UN MODÈLE SPÉCIFIQUE DE DOMAINE
ChatGPT est un outil d’apprentissage automatique (ML) GPT (Generative Pre-trained Transformer) qui a surpris le monde. Ses capacités impressionnantes plaisent aux utilisateurs occasionnels, aux professionnels, aux chercheurs et même à ses propres créateurs. De plus, sa capacité à être un modèle ML formé pour des tâches générales et à bien fonctionner dans des situations spécifiques à un domaine est impressionnante. En tant que chercheur, son aptitude à faire de l’analyse de sentiment (SA) m’intéresse.
L’analyse de sentiment est une NLP (Natural Language Processing) très répandue. Elle a plusieurs applications et peut donc être utilisée dans plusieurs domaines (par exemple, la finance, le divertissement, la psychologie). Cependant, certains domaines adoptent des termes et un jargon spécifiques (par exemple, la finance). Ainsi, la question de savoir si les modèles ML de domaine général peuvent être aussi performants que les modèles spécifiques à un domaine est encore une question de recherche ouverte en NLP.
Dans ce texte, je compare ChatGPT à un modèle ML spécifique à un domaine en discutant des sujets suivants :
SemEval 2017 Task 5 – Un défi spécifique à un domaine
Utilisation de l’API ChatGPT pour étiqueter un ensemble de données avec des exemples de code
Verdict et résultats de la comparaison avec les détails de la reproductibilité
Conclusion et discussion des résultats
BONUS : Comment cette comparaison peut être faite dans un scénario pratique
Pour cette sous-tâche, l’équipe de recherche gagnante (c’est-à-dire celle qui a le mieux performé sur l’ensemble de test) a nommé son architecture ML Fortia-FBK. Inspirés par les découvertes de cette compétition, certains collègues et moi avons réalisé un article de recherche (Assessing Regression-Based Sentiment Analysis Techniques in Financial Texts) où nous avons mis en œuvre notre version de Fortia-FBK et évalué les moyens d’améliorer cette architecture.
Enfin, en faisant cela pour un total de 1633 phrases (ensemble d’entraînement + ensemble de test) dans l’ensemble de données de référence de SemEval 2017 Task 5 Subtask 2, vous obtenez les résultats suivants avec les étiquettes ChatGPT API.
Ces problèmes impliquent une courbe d’apprentissage pour utiliser correctement l’API (biaisée). Elle a besoin d’ajustements pour obtenir les résultats souhaités. Parfois, de nombreuses tentatives sont nécessaires pour atteindre le résultat voulu avec une consistance minimale. Il est donc important de prendre en compte ces problèmes avant d’employer ChatGPT.
Dans l’ensemble, ChatGPT s’est avéré être un outil très puissant pour l’analyse de sentiment spécifique à un domaine. Cependant, il y a des limitations importantes à prendre en compte lors de l’utilisation de son API à grande échelle. Il est donc important de faire preuve de prudence dans l’utilisation de ChatGPT API et de ne pas confondre les résultats obtenus avec ceux d’un modèle spécifique à un domaine.