Améliorez la synthèse des transcriptions de podcasts et des longs textes avec NLP et IA | par Isaac Tham

POURQUOI L’APPROCHE ACTUELLE DE LA RÉSUMÉSATION EST FAUTIVE, ET COMMENT FAIRE MIEUX
Les LLMs comme GPT-4 ont pris le monde d’assaut, et l’une des tâches pour les modèles de texte génératif est la sommation de longs textes tels que les livres ou les transcriptions de podcast. Cependant, la méthode conventionnelle pour amener les LLMs à résumer des textes longs est fondamentalement fautive. Dans ce post, je vous parlerai des problèmes avec les méthodes actuelles de sommation, et je présenterai une meilleure méthode de sommation qui prend réellement en compte la structure du texte! Mieux encore, cette méthode nous donnera également les principaux sujets du texte – d’une pierre deux coups! Je vous montrerai comment vous pouvez facilement mettre cela en œuvre en Python, avec quelques ajustements de la méthode existante. C’est la méthode que nous utilisons chez Podsmart, notre application de sommation de podcast alimentée par l’IA qui aide les intellectuels occupés à gagner des heures d’écoute.

PROBLÈMES AVEC LES SOLUTIONS ACTUELLES
La méthode canonique pour sommer des textes longs est la sommation récursive, dans laquelle le texte long est divisé en morceaux plus petits qui peuvent s’adapter dans la fenêtre contextuelle de l’LLM. Chaque morceau est résumé, et les résumés sont concaténés puis passés à travers GPT-3 pour être résumés davantage. Ce processus est répété jusqu’à ce qu’on obtienne un résumé final de la longueur désirée. Cependant, le principal inconvénient est que les mises en œuvre existantes divisent le texte en morceaux sans tenir compte du flux logique et structurel du texte.

UNE MEILLEURE APPROCHE
Une meilleure solution consiste à aborder ensemble le processus de sommation et de modélisation de sujet dans le même algorithme. Ici, nous divisons les sorties de résumé d’une étape de sommation récursive en morceaux à alimenter à l’étape suivante. Nous pouvons y arriver en regroupant les morceaux par cluster sémantique en sujets et en passant les sujets à la prochaine itération de sommation. Au lieu de créer des morceaux assez grands pour rentrer dans une fenêtre contextuelle, je propose que la taille d’un morceau devrait être le nombre de phrases qu’il faut généralement pour exprimer une idée discrète. Après cela, nous pouvons incorporer chaque morceau de texte en échantillonnant essentiellement son sens sémantique d’un vecteur. Ensuite, nous regroupons les morceaux similaires en sujets.

En bref, si le processus de sommation ne reconnaît pas la hiérarchie de sens du texte et n’est pas compatible avec elle, il est peu probable que le résumé résultant soit suffisamment bon pour transmettre avec précision le sens voulu par l’auteur.