in

Nettoyage du chaos de la Confluence : une quête Python et BERTopic | par Massimiliano Costacurta | Avr, 2023


NETTOYER LE DÉSORDRE DE CONFLUENCE AVEC PYTHON ET BERTOPIC POUR CRÉER LE CHATBOT GPT PARFAIT

Imaginez que vous travaillez dans une entreprise de technologies en plein essor et qu’on vous a confié la mission de créer un chatbot de pointe utilisant la technologie GPT étonnante. Ce chatbot est destiné à devenir le joyau de la couronne de l’entreprise, un oracle virtuel qui répondra aux questions en se basant sur les connaissances stockées dans vos espaces Confluence. Cela semble être un travail de rêve, n’est-ce pas ?

Mais en examinant de plus près la base de connaissances de Confluence, la réalité vous frappe. C’est une jungle sauvage de pages vides/incomplètes, de documents non pertinents et de contenu en double. C’est comme si quelqu’un avait pris mille puzzles et les avait jetés dans un grand mixeur avant de lancer le tout. Et maintenant, c’est à vous de nettoyer ce désordre avant même de pouvoir penser à construire ce chatbot incroyable.

Dans cet article, vous découvrirez comment utiliser Python et BERTopic pour identifier et éliminer ces documents inutiles ou hors normes de manière automatique et efficace. Avec cette combinaison de puissance, vous économiserez du temps et des ressources tout en augmentant l’exactitude et l’efficacité de vos efforts de nettoyage.

Le nettoyage manuel de votre base de connaissances de Confluence est fastidieux, chronophage et sujet aux erreurs. De même, la création d’une solution basée sur des heuristiques, en utilisant un ensemble de règles prédéfinies pour identifier et éliminer les valeurs aberrantes peut être limité et avoir des résultats suboptimaux. La meilleure approche consiste à utiliser Python et BERTopic.

En connectant à votre compte Confluence, Python et BERTopic peuvent travailler ensemble pour automatiser le processus de nettoyage de votre base de connaissances. En utilisant leurs pouvoirs combinés, vous économiserez du temps et des ressources tout en augmentant l’exactitude et l’efficacité de vos efforts de nettoyage.

Le processus de nettoyage de Confluence consiste à connecter à Confluence et à télécharger les documents, à traiter l’HTML et à extraire le texte en utilisant Beautiful Soup. Cela implique le nettoyage du texte extrait, l’élimination des éléments indésirables et la préparation des données pour l’analyse. Enfin, BERTopic est appliqué pour analyser et regrouper les documents en fonction de leurs thèmes sous-jacents.

En utilisant BERTopic et Python dans la dernière étape, on peut identifier les documents indésirables en exécutant BERTopic avec différents nombres de sujets et en collectant tous les documents qui tombent dans le cluster des valeurs aberrantes. Plus fréquemment un document apparait dans le cluster des valeurs aberrantes, plus il est susceptible d’être considéré comme un document non pertinent. BERTopic fournit également une valeur de probabilité pour les documents dans le cluster des valeurs aberrantes qui sera utilisée pour calculer la note de non-pertinence.

Dans l’ensemble, cette technique permet de nettoyer efficacement la base de connaissances de Confluence et de créer le chatbot GPT parfait. Avec Python et BERTopic, vous avez les outils pour transformer votre base de connaissances en un terrain d’entraînement idéal pour votre chatbot.

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

Tenue Générative – Habillez votre avatar unique avec les tenues générées par HeyGen.

Les premières images de marketing divulguées révèlent que le Google Pixel Fold semble presque sans bordures.