Apprentissage par Renforcement Profond Hyperbolique | par Michael Bronstein

LES RENCONTRES DE RL ET DE LA GÉOMÉTRIE HYPERBOLIQUE

De nombreux problèmes en apprentissage par renforcement (RL) présentent une nature hiérarchique en forme d’arbre. Les espaces hyperboliques, qui peuvent être conceptualisés comme des analogies continues d’arbres, sont donc des candidats appropriés pour paramétrer le modèle profond de l’agent. Dans cet article, nous présentons les bases de la géométrie hyperbolique, montrons empiriquement qu’elle fournit un bon biais inductif pour de nombreux problèmes de RL et décrivons une procédure de régularisation pratique permettant de résoudre les instabilités numériques dans l’optimisation de bout en bout avec des espaces latents hyperboliques. Notre approche montre une amélioration de performance presque universelle sur une large gamme de benchmarks communs avec des algorithmes RL à la fois sur et hors politique.

UN APERÇU DES PROBLÈMES DE RL

Les problèmes de RL peuvent être décrits comme un processus de décision de Markov (MDP), où l’agent observe un état s ∈ S de l’espace d’état de l’environnement, sur la base duquel il exécute une action a ∈ A de son espace d’action, et enfin, reçoit une récompense r de sa fonction de récompense r: S × A ↦ R. L’évolution de l’environnement repose sur la propriété markovienne, ce qui signifie qu’elle est indépendante des états passés étant donné l’état actuel et est entièrement décrite par les dynamiques de transition P: S × A × S ↦ R et la distribution d’état initiale p₀: S ↦ R.

Une politique est une fonction de distribution paramétrée sur des actions a ∼ π (⋅ | s) donnée l’état actuel s, représentant le comportement de l’agent. Chaque épisode d’interaction entre l’agent et l’environnement produit une trajectoire, τ = (s₀, a₀, s₁, a₁,…), selon la politique et les dynamiques de transition. Pour chaque état s ∈ S, la fonction de valeur de la politique représente la somme escomptée des récompenses futures sur les trajectoires possibles de l’agent à partir de s.

L’objectif de l’agent est d’apprendre une politique maximisant somme escomptée des récompenses sur les trajectoires rencontrées ou, de manière équivalente, la fonction de valeur escomptée sur les états initiaux possibles. En RL profond, la politique et les fonctions de valeur sont généralement modélisées sous forme de réseaux de neurones. La boucle d’entraînement RL implique l’alternance entre une phase de collecte d’expérience (déployer la politique actuelle dans l’environnement) et une phase d’apprentissage (mettre à jour les modèles de l’agent pour améliorer son comportement).

Selon la manière dont les données d’expérience collectées sont utilisées, on peut distinguer deux grandes classes d’algorithmes RL :

– Les algorithmes sur politique collectent un nouvel ensemble de trajectoires avec la dernière politique pour chaque itération d’entraînement, en ignorant les anciennes données. Ils utilisent ces trajectoires pour apprendre la fonction de valeur de la politique actuelle qui est ensuite utilisée pour calculer le gradient de politique et maximiser la probabilité d’effectuer les meilleures actions actuellement observées. L’optimisation de la politique proximale (PPO) est actuellement l’un des algorithmes les plus établis et robustes de cette classe.
– Les algorithmes hors politique stockent plutôt de nombreuses trajectoires différentes collectées avec un mélange de vieilles politiques dans un grand jeu de données de relecture d’expériences. Ils utilisent ces données pour apprendre directement un modèle de la fonction de valeur optimale en utilisant une perte quadratique basée sur la sauvegarde de Bellman. La politique est ensuite implicitement définie en fonction des actions menant à la valeur estimée attendue la plus élevée.

LA GÉNÉRALISATION EN RL PROFOND

La généralisation est une exigence clé des agents RL efficaces, car la plupart des tâches réelles et même complexes simulées comportent un large degré de diversité dans leur espace d’état (par exemple, l’espace d’images naturelles). Du point de vue de l’agent, explorer et mémoriser la valeur exacte de cet ensemble (éventuellement infini) d’entrées est clairement inabordable. De plus, pour de nombreuses applications, les paramètres de laboratoire contrôlés utilisés pour la formation pourraient ne pas refléter la pleine diversité des configurations possibles pour une tâche donnée. Par conséquent, le comportement de l’agent doit idéalement être robuste aux petits changements de distribution qu’il pourrait observer pendant le déploiement.

Les modèles d’agent à base de réseaux de neurones profonds servent d’approche pratique pour résoudre ces problèmes, en tant que priori fonctionnel qui tente de capturer seulement les caractéristiques les plus pertinentes et causales des états que l’agent devrait nécessiter pour une prise de décision efficace. Cependant, fournir une compréhension précise de la manière dont les différentes choix de conception affectent l’entraînement du réseau de neurones et de sa généralisation résultante est encore une question ouverte.

La géométrie hyperbolique

Dans notre article récent, nous étudions les propriétés géométriques qui font qu’un modèle RL profond généralise robustement et efficacement. En particulier, nous nous concentrons sur le modèle de géométrie hyperbolique.

Les espaces hyperboliques ne possèdent pas des propriétés intuitives comme les espaces euclidiens et peuvent être décrits comme un type spécial de variétés de Riemann, c’est-à-dire des objets n-dimensionnels intégrés dans n+1 dimensions qui ne sont localement euclidiens. L’une des propriétés fondamentales des espaces hyperboliques est leur courbure constante négative, ce qui entraîne une croissance exponentielle des distances et des volumes plutôt que polynomiale.

Cela permet d’interpréter les espaces hyperboliques comme des analogues continus des arbres, dans lesquels le nombre de nœuds feuilles également augmente de façon exponentielle à mesure que nous augmentons la profondeur. En raison de ce fait, un arbre peut être intégré de manière isométrique (c’est-à-dire d’une manière préservant les distances relatives entre les nœuds) dans un espace hyperbolique de seulement deux dimensions. À la différence, l’intégration d’un arbre dans un espace euclidien résulte en des déformations, qui peuvent être diminuées en utilisant une dimension élevée.

Plusieurs modèles équivalents de géométrie hyperbolique existent; nous considérons ici la boule de Poincaré (notée 𝔹ⁿ), qui peut être conceptualisée comme une sphère unité n-dimensionnelle qui préserve la notion d’angles des espaces euclidiens. Comme le volume total de la boule de Poincaré augmente exponentiellement avec le rayon de l’origine, les géodésiques (chemins les plus courts) sont des arcs de cercles perpendiculaires à la frontière plutôt que droites, comme dans les espaces euclidiens.

LES ESPACES HYPERBOLIQUES EN MACHINE LEARNING

Pour travailler avec les espaces hyperboliques en apprentissage en profondeur, nous devons redéfinir les opérations standard avec les vecteurs, les notions d’hyperplans et les distances relatives entre ces éléments. La difficulté conceptuelle de ce processus découle du fait que nous devons travailler dans l’espace tangent, une représentation euclidienne locale de l’espace hyperbolique.

Cela est réalisé grâce à la fonction exponentielle expₓ(v), qui effectue une étape unitaire le long d’une géodésique partant du point x dans la direction d’un vecteur d’entrée v. Nous utilisons la fonction exponentielle à partir de l’origine de la boule de Poincaré pour cartographier les vecteurs d’entrée euclidiens v dans 𝔹ⁿ.

Les espaces gyrovector permettent d’étendre les opérations vectorielles courantes aux géométries non euclidiennes. Une telle opération est appelée addition de Möbius et est désignée par x⊕y. Les gyroplans sont une généralisation d’un hyperplan orienté dans un espace de gyrovector. Un gyroplan sur la boule de Poincaré est paramétré par le décalage n-dimensionnel p et la normale w, de telle sorte que H = {y ∈ 𝔹ⁿ: < y ⊕ p, w > = 0}.

Dans les probl