HyperAIHyperAI

Command Palette

Search for a command to run...

Itération de distribution de données généralisée

Jiajun Fan Changnan Xiao

Résumé

Obtenir une efficacité d’échantillonnage élevée tout en atteignant des performances finales supérieures constitue l’un des principaux défis du apprentissage par renforcement profond (DRL). Les travaux antérieurs ont pu traiter l’un de ces défis, mais ont généralement échoué à les aborder simultanément. Dans cet article, nous nous efforçons de relever ces deux défis en même temps. Pour cela, nous décomposons d’abord ces défis en deux problèmes classiques du renforcement par apprentissage : la richesse des données et le compromis exploration-exploitation. Ensuite, nous reformulons ces deux problèmes comme une optimisation de la distribution des données d’entraînement, visant à obtenir des données d’entraînement souhaitées dans un nombre limité d’interactions, et les résolvons conjointement grâce à i) une modélisation explicite et un contrôle de la capacité et de la diversité de la politique de comportement, et ii) un contrôle plus fin et adaptable de la distribution de sélection/échantillonnage de la politique de comportement, via une optimisation monotone de la distribution des données. Enfin, nous intégrons ce processus dans l’itération de politique généralisée (GPI), aboutissant à un cadre plus général appelé itération de distribution de données généralisée (GDI). Nous utilisons le cadre GDI pour introduire des versions fondées sur des opérateurs de méthodes classiques du renforcement par apprentissage, allant de DQN à Agent57. Une garantie théorique de l’infériorité de GDI par rapport à GPI est établie. Nous démontrons également une performance de pointe (SOTA) sur l’Arcade Learning Environment (ALE), où notre algorithme atteint un score moyen normalisé par rapport à l’humain (HNS) de 9620,33 %, un HNS médian de 1146,39 %, et dépasse 22 records mondiaux humains, en utilisant uniquement 200 millions d’images d’entraînement. Nos performances sont comparables à celles d’Agent57, tout en nécessitant 500 fois moins de données. Nous estimons qu’il reste encore un long chemin à parcourir avant d’obtenir des agents véritablement supérieurs à l’humain sur ALE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp