«Super Mario Bros.» : quelle IA est la meilleure joueuse ?

Publié

Intelligence artificielleQuand «Super Mario Bros.» sert à évaluer les IA

Un laboratoire de l'université de Californie, à San Diego, a comparé les capacités des outils d'IA générative en utilisant le célèbre jeu vidéo de Nintendo.

Le célèbre plombier moustachu de Nintendo a donné du fil à retordre aux IA.

Le célèbre plombier moustachu de Nintendo a donné du fil à retordre aux IA.

Getty Images via AFP

Si le jeu «Pokémon» est connu pour avoir été utilisé pour défier des IA, un groupe de chercheurs du Hao AI Lab, rattaché à l'université de Californie, à San Diego, aux États-Unis, a estimé que «Super Mario Bros.» de Nintendo pouvait aussi constituer un défi intéressant, voire encore plus ardu à relever. Dans le cadre d'une récente expérience, ce laboratoire a ainsi chargé plusieurs modèles d'IA de jouer au célèbre jeu en temps réel, afin d'évaluer leurs compétences.

À noter qu'il ne s'agissait pas de la version originale du jeu de 1985, mais une version fonctionnant dans un émulateur et intégrée à GamingAgent, un environnement développé en interne. Celui-ci a permis aux différentes IA de contrôler Mario, le personnage principal du jeu, en leur fournissant des instructions de base, ainsi que des captures d'écran.

Claude-3.7, le grand vainqueur

À ce petit jeu, Claude 3.7 d'Anthropic s'est révélé être le plus performant. Il est suivi par Claude 3.5. En revanche, des modèles comme Gemini 1.5 Pro de Google et GPT-4o d'OpenAI ont rencontré davantage de difficultés. Cela s'explique notamment par le fait que les modèles d'IA reposant sur le raisonnement, comme ChatGPT, prennent plus de temps pour analyser la situation et prendre une décision, ce qui nuit à leur spontanéité dans un jeu en temps réel.

Toutefois, certains chercheurs remettent en question la pertinence des jeux vidéo en tant qu'outil de benchmark pour l'évaluation des performances des IA. Ils estiment que ces environnements ne reflètent pas toujours les défis réels auxquels ces modèles sont censés répondre.

Ton opinion

1 commentaire
L'espace commentaires a été desactivé