in

Les petits robots apprennent à conduire rapidement dans le monde réel.

# COMMENT LES ROBOTS APPRENNENT-ILS À CONDUIRE GRÂCE À LA RÉTROACTION ?

Lorsque les robots veulent apprendre une nouvelle compétence, ils doivent souvent partir de zéro, contrairement aux humains qui disposent d’une vie d’expérience sur laquelle s’appuyer. C’est dans ce contexte que la technique de la rétroaction, qui permet aux robots d’apprendre de nouvelles compétences par essais et erreurs, est très utile. Toutefois, lorsqu’il s’agit d’apprendre des politiques de contrôle basées sur la vision de bout en bout, cela prend beaucoup de temps, car le monde réel présente une multitude d’obstacles et de frictions que les robots ne peuvent comprendre sans un effort fréquemment impraticable.

# SOLUTION : UN APPRENTISSAGE BASÉ SUR UNE EXPÉRIENCE PRÉCÉDENTE

Les chercheurs en robotique de l’UC Berkeley ont mis au point une technique qui accélère considérablement le processus en utilisant une méthodologie d’apprentissage basée sur une expérience précédente. Concrètement, ils ont utilisé un « modèle de base » préalablement entraîné à la conduite de véhicules autonomes pour enseigner à une voiture de rallye miniature à se déplacer sur différentes surfaces en seulement 20 minutes. L’expérience a montré que la performance du robot était équivalente à celle d’un conducteur humain.

# L’ÉTAPE DE PRÉ-ENTRAÎNEMENT

Le pré-entraînement consiste à conduire manuellement un robot, qui n’est pas nécessairement le robot qui accomplira la tâche souhaitée, dans différents environnements. L’objectif n’est pas d’apprendre au robot à rouler vite sur un circuit, mais plutôt de lui apprendre les bases de l’évitement d’obstacles. Une fois le modèle de base pré-entraîné en place, il suffit de placer le petit véhicule sur le parcours que l’on souhaite lui apprendre, de le conduire lentement une fois pour lui montrer où aller, puis de le laisser fonctionner en autonomie, se formant à conduire de plus en plus vite.

# LES CARACTÉRISTIQUES DE LA POLITIQUE APPRISE

Le robot apprend la notion de « ligne de course », c’est-à-dire la recherche d’un chemin fluide à travers le circuit qui maximise sa vitesse dans les virages et les dédales. Le robot apprend à maintenir sa vitesse en entrant dans les virages, à freiner brusquement pour tourner et à accélérer à la sortie du virage afin de minimiser sa durée de conduite. Si la surface de la piste est peu adhérente, le robot apprend à surdiriger légèrement dans les virages, en dérivant un peu pour effectuer une rotation rapide sans freiner. En extérieur, le modèle peut également distinguer les caractéristiques du sol et préfère les surfaces lisses offrant une bonne adhérence sur les chemins en béton par rapport aux zones herbeuses qui entravent sa progression.

# LA FONCTION DE RÉINITIALISATION

Une des caractéristiques pratiques de cette méthode est la fonction de réinitialisation qui permet d’éviter de bloquer le robot. Dans une situation de test virtuelle, il est évident de réinitialiser le robot si quelque chose se passe mal, mais dans un environnement réel, la situation peut rapidement devenir difficile à gérer si le robot est bloqué d’une quelconque façon. La fonction de réinitialisation permet de détecter si le robot n’a pas bougé d’au moins 0,5 mètre pendant les trois secondes précédentes. Dans ce cas, le robot exécute un comportement simple consistant à tourner au hasard, à reculer, puis à tenter de rouler à nouveau vers l’avant pour se débloquer lui-même.

# APPRENTISSAGE BASÉ SUR LA RÉTROACTION

Lors d’expérimentations en intérieur et en extérieur, le robot a pu apprendre une conduite agressive comparable à celle d’un expert humain en seulement 20 minutes de pratique autonome. Les chercheurs ont conclu que l’apprentissage par renforcement en profondeur est un outil viable pour apprendre des politiques du monde réel à partir d’images brutes, lorsqu’il est combiné à une formation préalable appropriée et mis en œuvre dans un cadre d’entraînement autonome.

Référence: “FastRLAP : A System for Learning High-Speed Driving via Deep RL and Autonomous Practicing,” par Kyle Stachowicz, Arjun Bhorkar, Dhruv Shah, Ilya Kostrikov, et Sergey Levine, de l’UC Berkeley, disponible sur arXiv.

What do you think?

Written by Mathieu

Leave a Reply

Your email address will not be published. Required fields are marked *

Comment transférer votre Google Authenticator 2FA sur un nouveau téléphone ?

Le son des bus autonomes : c’est une question de quand, pas de comment.