La mise à l'échelle résoudra-t-elle les problèmes de robotique ? - IEEE Spectrum

Ce billet a été initialement publié sur le blog personnel de l’auteur.

L’année dernière, la Conférence sur l’apprentissage des robots (CoRL) était la plus grande jamais organisée, avec plus de 900 participants, 11 ateliers et près de 200 articles acceptés. Alors qu’il y avait beaucoup de nouvelles idées intéressantes, un débat en particulier semblait être au premier plan : est-il possible de former un grand réseau neuronal sur un ensemble de données très important pour résoudre des problèmes de robotique ?

Bien sûr, une version de cette question préoccupe les chercheurs depuis quelques années. Cependant, après le succès sans précédent de ChatGPT et d’autres “modèles de base” à grande échelle sur des tâches qui semblaient insolvables il y a quelques années à peine, la question était particulièrement d’actualité lors de la CoRL de cette année. Le développement d’un robot polyvalent, capable d’exécuter de manière compétente et robuste une grande variété de tâches intéressantes dans n’importe quel environnement domestique ou de bureau accessible aux humains, a peut-être été le Saint Graal de la robotique depuis les débuts du domaine. Et compte tenu des progrès récents des modèles de base, il semble possible que le fait de mettre à l’échelle les architectures de réseaux existantes en les formant sur de très grands ensembles de données soit en réalité la clé de ce Graal.

On a également commencé à voir des preuves que cela pourrait fonctionner très bien. Chelsea Finn, Vincent Vanhoucke, et plusieurs autres ont pointé du doigt les récents articles RT-X et RT-2 de Google DeepMind comme preuves que la formation d’un seul modèle sur de grandes quantités de données en robotique produit des capacités de généralisation prometteuses.

Le succès en matière de données, de calcul et de modèles de base est une tendance que nous devrions suivre. L’idée maîtresse d’un essai influent de Rich Sutton est que l’histoire de la recherche en IA a montré que des algorithmes relativement simples qui s’échelonnent bien avec les données surpassent toujours des algorithmes plus complexes ou astucieux qui ne le font pas. Nous pourrions choisir d’ignorer cette tendance, mais en tant que chercheurs en IA, nous devrions reconnaître les progrès réalisés grâce aux grandes données et aux grands modèles, et développer des algorithmes, des outils, des ensembles de données, etc. pour tirer parti de ces progrès. Il convient également de s’appuyer sur les grands modèles pré-entraînés dans les domaines de la vision et du langage, qui existent actuellement ou existeront, pour les tâches de robotique.

Plusieurs arguments s’opposent à cette approche, notamment le caractère peu pratique de la collecte de grandes quantités de données, les différences dans les embodiments des robots, la variabilité extrêmement grande des environnements dans lesquels les robots doivent opérer, et le coût et la consommation énergétique élevés de la formation des modèles à grande échelle. De plus, même si l’approche fonctionne relativement bien, elle ne résoudra pas totalement les problèmes de robotique, en particulier en ce qui concerne l’obtention de performances très élevées.

Néanmoins, malgré ces arguments contre, l’idée de mettre à l’échelle l’apprentissage en robotique reste une direction prometteuse à explorer. En outre, combiner des approches classiques et basées sur l’apprentissage peut être la voie à suivre pour développer des systèmes robotiques fiables.