HyperAIHyperAI

Command Palette

Search for a command to run...

Maîtriser Atari, Go, Échecs et Shogi grâce à la planification avec un modèle appris

Résumé

La construction d'agents dotés de capacités de planification a longtemps été l'un des principaux défis dans la quête de l'intelligence artificielle. Les méthodes de planification basées sur les arbres ont connu un grand succès dans des domaines difficiles, tels que l'échec et le Go, où un simulateur parfait est disponible. Cependant, dans les problèmes du monde réel, les dynamiques qui gouvernent l'environnement sont souvent complexes et inconnues. Dans ce travail, nous présentons l'algorithme MuZero qui, en combinant une recherche basée sur les arbres avec un modèle appris, atteint des performances supérieures à celles de l'homme dans une gamme de domaines difficiles et visuellement complexes, sans aucune connaissance de leurs dynamiques sous-jacentes. MuZero apprend un modèle qui, lorsqu'il est appliqué itérativement, prédit les quantités directement pertinentes pour la planification : la récompense, la politique de sélection d'action et la fonction de valeur. Lorsqu'il a été évalué sur 57 jeux Atari différents - l'environnement vidéo ludique canonique pour tester les techniques d'IA, où les approches de planification basées sur les modèles ont historiquement eu du mal - notre nouvel algorithme a atteint un nouveau niveau d'excellence (state of the art). Lorsqu'il a été évalué sur le Go, l'échec et le shogi, sans aucune connaissance des règles du jeu, MuZero a égalé les performances supérieures à celles de l'homme de l'algorithme AlphaZero qui avait reçu les règles du jeu.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp