il y a 7 mois

Résumé

Ce document propose une nouvelle architecture d'apprentissage par renforcement profond (RL), appelée Réseau de Prédiction de Valeur (Value Prediction Network - VPN), qui intègre les méthodes d'apprentissage par renforcement sans modèle et avec modèle dans un seul réseau neuronal. Contrairement aux méthodes typiques d'apprentissage par renforcement avec modèle, le VPN apprend un modèle de dynamique dont les états abstraits sont formés pour faire des prédictions conditionnelles aux options des valeurs futures (somme actualisée des récompenses) plutôt que des observations futures. Nos résultats expérimentaux montrent que le VPN présente plusieurs avantages par rapport aux lignes de base sans modèle et avec modèle dans un environnement stochastique où une planification soigneuse est nécessaire, mais la construction d'un modèle précis de prédiction des observations est difficile. De plus, le VPN surpasse le Deep Q-Network (DQN) sur plusieurs jeux Atari même avec une planification à court terme, démontrant son potentiel en tant que nouvelle méthode pour apprendre une bonne représentation d'état.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Apprentissage Par Renforcement

Vision Par Ordinateur

Réseaux De Neurones

Approche/Framework

Vision Par Ordinateur

Tâche

Junhyuk Oh Satinder Singh Honglak Lee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Apprentissage Par Renforcement

Vision Par Ordinateur

Réseaux De Neurones

Approche/Framework

Vision Par Ordinateur

Tâche

Junhyuk Oh Satinder Singh Honglak Lee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseau de Prédiction de Valeur

Junhyuk Oh Satinder Singh Honglak Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de Prédiction de Valeur

Junhyuk Oh Satinder Singh Honglak Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de Prédiction de Valeur

Junhyuk Oh Satinder Singh Honglak Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters