La carte des Transformers. Un aperçu général des Transformers... | par Soran Ghaderi

TRANSFORMERS : UNE VUE D’ENSEMBLE DE LA RECHERCHE

Au cours des dernières années, le rythme de la recherche en deep learning s’est accéléré de manière significative, rendant de plus en plus difficile le suivi de toutes les dernières avancées. Malgré cela, il existe une direction particulière de recherche qui a suscité une attention considérable en raison de son succès démontré dans de nombreux domaines, tels que le traitement du langage naturel, la vision par ordinateur et le traitement audio. Cette direction de recherche utilise un modèle appelé Transformer, qui fait usage d’un éventail de mécanismes et techniques dans le domaine de l’attention. Cet article fournit une vue d’ensemble de cette technique et des avancées qui y sont liées.

CATÉGORIES DE MODIFICATIONS POUR LES TRANSFORMERS

Il y a trois catégories générales de modèles basés sur le Transformer qui ont été explorées à ce jour : les modifications architecturales, les méthodes de pré-entrainement et les applications. Chaque catégorie contient plusieurs sous-catégories, qui seront examinées en détail dans les sections suivantes. Il existe plusieurs modèles de Transformers qui ont été développés en réponse aux principaux inconvénients de ce modèle, qui sont la complexité et les biais structurels.

SPARSE ATTENTION : LA SOLUTION AUX PROBLÈMES DE TRANSFORMERS

L’attention de soi joue un rôle fondamental dans le Transformer, bien qu’elle présente deux principaux inconvénients en pratique. Le premier est la complexité, pour les longues séquences, ce module devient rapidement un goulot d’étranglement car sa complexité de calcul est de l’ordre de O(T²·D). Le deuxième inconvénient est le manque de traitement du biais structural des entrées et nécessite l’injection de mécanismes supplémentaires dans les données d’entraînement qui seront apprises par la suite (à savoir l’apprentissage de l’ordre des informations des séquences d’entrée). Pour pallier ces inconvénients, différentes techniques ont été explorées.

SPARSE ATTENTION POSITIONNELLE

L’attention positionnelle sparse est une technique qui consiste à limiter les connexions dans la matrice d’attention en fonction de motifs prédéfinis. Il existe cinq motifs de base pour la création de connexions SPA, qui peuvent être combinés pour créer une variété de mécanismes d’attention rares avec des compromis différents entre la complexité de calcul et la performance.

SPARSE ATTENTION BASÉE SUR LE CONTENU

Dans cette approche, un graphe rare est construit où les connexions rares sont basées sur les entrées elles-mêmes. C’est-à-dire qu’il sélectionne les clés ayant une forte similarité avec la requête donnée. Un moyen efficace de construire ce graphe est d’utiliser la recherche de produit intérieur maximal qui trouve le produit intérieur maximal entre les clés et la requête sans calculer tous les produits intérieurs.

CONCLUSION

Au total, les Transformer sont une technique populaire de deep learning qui a montré son efficacité dans de nombreux domaines. Les modifications apportées aux Transformers ont permis d’améliorer significativement leur performance tout en réduisant leur complexité de calcul. Les mécanismes d’attention rares ont notamment été utilisés pour résoudre les problèmes de complexité de la technique de l’attention de soi et pour éliminer le biais structurel des entrées. Les mécanismes complexes utilisés dans les Transformer peuvent être difficiles à comprendre, mais cette vue d’ensemble devrait aider les chercheurs à comprendre les dernières avancées dans ce domaine.