Une introduction à Hugging Face avec la mise en œuvre de 6 tâches de traitement du langage naturel | Par Farzad Mahmoodinobar

UN TUTORIEL INTRODUCTIF POUR UTILISER HUGGING FACE DANS LES TÂCHES DE TRAITEMENT DU LANGAGE NATUREL

Hugging Face est une communauté d’IA open source pour les praticiens de l’apprentissage automatique avec un accent sur le traitement du langage naturel (NLP), la vision par ordinateur et le traitement audio / vocal. Que vous travailliez déjà dans l’un de ces domaines ou que vous souhaitiez y entrer à l’avenir, vous bénéficierez de l’apprentissage de l’utilisation des outils et modèles Hugging Face.

Dans ce post, nous allons passer en revue six des tâches de NLP les plus fréquemment utilisées en utilisant des modèles préentraînés disponibles sur Hugging Face, à savoir:

– Génération de texte (a.k.a. Modélisation du langage)
– Réponse aux questions
– Analyse des sentiments
– Classification de texte
– Résumé de texte
– Traduction de texte

Avant de nous lancer dans les tâches, prenons une minute pour parler de la distinction entre « Entraînement » et « Inférence », qui sont deux concepts importants en apprentissage automatique, pour clarifier sur quoi nous travaillerons aujourd’hui.

Entraînement est le processus d’alimentation d’un modèle d’apprentissage automatique avec de grandes quantités de données. Au cours de ce processus, le modèle “apprend” à partir des données fournies (en optimisant une fonction objective) et donc ce processus est appelé “Entraînement”. Une fois que nous avons un modèle entraîné, nous pouvons l’utiliser pour faire des prédictions dans de nouvelles données que le modèle n’a jamais vu auparavant. Ce processus s’appelle “Inférence”. En bref, l’entraînement est le processus d’apprentissage pour le modèle, tandis que l’inférence est le modèle qui fait des prédictions (c’est-à-dire lorsque nous utilisons réellement le modèle).

Maintenant que nous comprenons la distinction entre l’entraînement et l’inférence, nous pouvons définir de manière plus concrète sur quoi nous travaillerons aujourd’hui. Dans ce post, nous utiliserons divers modèles préentraînés pour l’inférence. En d’autres termes, nous ne passerons pas par le processus coûteux de l’entraînement de nouveaux modèles ici. En revanche, nous allons exploiter la myriade de modèles préentraînés existants dans le Hugging Face Hub et utiliser ceux-ci pour l’inférence (c’est-à-dire pour faire des prédictions).

GÉNÉRATION DE TEXTE

La génération de texte est une tâche qui est devenue très populaire récemment, comme ChatGPT. Cette tâche est généralement appelée modélisation de langage et la tâche que les modèles effectuent consiste à prédire les parties manquantes du texte (cela peut être un mot, un jeton ou des chaînes de texte plus longues). Ce qui a suscité beaucoup d’intérêt récemment, c’est que les modèles peuvent générer du texte sans avoir nécessairement vu de tels indices auparavant.

QUÉSTION-RÉPONSE

La réponse aux questions est une tâche où le modèle répond à une question fournie par l’utilisateur. Il existe généralement deux types de tâches de réponse aux questions:

– Extractif (c.-à-d. Dépendant du contexte): où l’utilisateur décrit une situation au modèle dans la question / l’invite et demande au modèle de générer une réponse, étant donné les informations fournies. Dans ce scénario, le modèle choisit les parties pertinentes de l’information de l’invite et renvoie les résultats
– Abstraitif (c.-à-d. indépendant du contexte): où l’utilisateur pose une question au modèle, sans fournir de contexte.

ANALYSE DES SENTIMENTS

L’analyse des sentiments est le processus de catégorisation du sentiment d’un texte en positif, négatif ou neutre. Il existe une vaste gamme d’applications pour l’analyse des sentiments dans différents secteurs, tels que la surveillance du sentiment des clients à partir des critiques de produits ou même en politique, comme pour évaluer l’intérêt du public pour un sujet donné pendant une année électorale.

CLASSIFICATION DE TEXTE

La classification de texte est une tâche plus générique dans la mesure où elle peut classer (ou catégoriser) le texte entrant (par exemple, une phrase, un paragraphe ou un document) en classes prédéfinies.

RÉSUMÉ DE TEXTE

La dernière tâche que nous allons aborder est le résumé de texte. Le résumé de texte est un processus où un modèle peut réduire un texte plus long à un résumé plus court tout en maintenant l’essentiel.

En implémentant ces tâches dans Hugging Face, nous avons utilisé des modèles préentraînés qui ont été formés sur des ensembles de données massives et sont donc capables de généraliser de manière efficace pour les tâches nouvelles et différentes. Nous avons également discuté de l’importance de la distinction entre l’entraînement et l’inférence en apprentissage automatique et de la manière dont les modèles préentraînés peuvent être utilisés pour l’inférence et n’ont pas besoin d’être réentraînés pour chaque nouvelle tâche. En utilisant Hugging Face, vous pouvez obtenir des résultats impressionnants et économiser du temps et des ressources en n’ayant pas besoin de former des modèles à partir de zéro.