in

Un automaton joueur de jeux agit comme un humain “irrationnel”.


GAME-PLAYING AUTOMATON ACTS LIKE AN ‘IRRATIONAL’ HUMAN

Les êtres humains prennent souvent des décisions irrationnelles de manière prévisible, mais que se passerait-il si nous faisions tous de notre mieux dans les limites de nos capacités ?

Des chercheurs ont réussi à simuler des comportements humains en utilisant un automate fini probabiliste, un modèle bien connu de puissance de calcul limitée. Ils ont programmé les automates pour qu’ils se battent les uns contre les autres dans un jeu de braconnage, en tant que braconnier de rhinocéros ou garde forestier essayant de stopper le braconnage.

Lorsque les automates pouvaient se souvenir de tout, ils adoptaient une stratégie de jeu optimale. Mais lorsque les chercheurs limitaient leur mémoire, ils prenaient des raccourcis dans leur prise de décision – les mêmes que les êtres humains réels jouant au jeu.

Ce nouveau travail soutient l’idée de la rationalité limitée, selon laquelle “parfois nous faisons des choses stupides ou commettons des erreurs systématiques, non pas parce que nous sommes irrationnels, mais parce que nous avons des ressources limitées”, explique Xinming Liu ’20, premier auteur de l’étude. Souvent, nous ne pouvons pas nous rappeler de tout ce qui s’est passé dans le passé ou nous n’avons pas assez de temps pour prendre une décision totalement rationnelle.

Liu a présenté ce travail intitulé “Strategic Play By Resource-Bounded Agents in Security Games” en mai lors de la Conférence internationale sur les agents autonomes et les systèmes multi-agents de 2023. L’auteur principal est Joseph Halpern, professeur d’informatique au Cornell Ann S. Bowers College of Computing and Information Science.

Dans le jeu de braconnage, il y a quelques sites, chacun ayant une probabilité différente de contenir un rhinocéros. À chaque tour, le braconnier et le garde choisissent un site à visiter, en prenant leurs décisions en fonction des données des tours précédents. Le braconnier gagne des points en attrapant un rhinocéros ; le garde gagne des points en attrapant le braconnier.

Si le braconnier et le garde peuvent se rappeler de chaque mouvement du jeu, ils finissent par trouver un équilibre de Nash – une paire de stratégies rationnelles et immuables. Mais si les automates ont une mémoire plus limitée – donc s’ils ne peuvent pas se rappeler où ils ont vu ce rhinocéros il y a 10, 100 ou 1000 tours – ils prennent des décisions apparemment irrationnelles semblables à celles des êtres humains.

Un des comportements humains que les automates ont simulé est l’adéquation de probabilité. Cela se produit lorsqu’une personne devine les résultats d’un lancer de pièce lorsque la pièce est pondérée pour donner trois fois plus souvent pile que face. Au lieu de toujours deviner pile, ce qui donnerait un taux de succès de 75%, beaucoup de gens devineraient pile les trois quarts du temps, ce qui réduirait leur taux de succès à environ 63%.

Dans le jeu, cela signifie que le braconnier visitait plus souvent les sites où il avait le plus souvent rencontré des rhinocéros par le passé, et moins souvent les sites où il y avait rarement un rhinocéros. Pour les automates, cette stratégie n’était pas idéale, mais elle donnait tout de même de bons résultats.

Un autre comportement humain irrationnel qui a conduit à de bonnes performances dans le jeu est la surévaluation des résultats significatifs – un phénomène selon lequel les incidents importants ou traumatisants prennent une importance particulière dans la mémoire. Par exemple, une personne peut rouler lentement sur une portion de route où elle a reçu une contravention il y a de nombreuses années.

Lorsque les chercheurs ont programmé les braconniers pour surestimer les rencontres précédentes avec les gardes, cela a porté ses fruits dans le jeu. Ils ont fini par éviter les sites où les gardes étaient les plus susceptibles d’être présents.

Pour voir si ces résultats correspondent aux êtres humains, Liu a recruté environ 100 personnes pour jouer en tant que braconniers sur une plateforme en ligne. Alors que certains humains choisissaient le même site à chaque fois ou choisissaient au hasard juste pour finir le jeu et recevoir un paiement, d’autres choisissaient les sites uniquement en fonction de l’adéquation de probabilité. Un troisième groupe supposait que le garde utilisait l’adéquation de probabilité et visitait les sites en conséquence pour éviter le garde.

Les similitudes dans le jeu entre les humains et les automates montrent que le modèle peut recréer au moins deux comportements humains, qui, au lieu d’être irrationnels, améliorent en réalité leurs performances.

“Une autre façon de l’interpréter est de dire que vous faites de votre mieux compte tenu de vos limitations de calcul”, explique Halpern. “Et cela me semble assez rationnel”.

Sources :
– [Strategic Play By Resource-Bounded Agents in Security Games](https://dl.acm.org/doi/10.5555/3545946.3598973)
– [Joseph Halpern](https://www.cs.cornell.edu/home/halpern/)

What do you think?

Written by Germain

Leave a Reply

Your email address will not be published. Required fields are marked *

Communication du réseau cérébral: concepts, modèles et applications

Corsair fait l’acquisition de Drop, spécialiste des claviers mécaniques.