Date

il y a 2 ans

La mauvaise spécification de récompense fait référence au problème de l'apprentissage par renforcement (RL) causé par la fonction de récompense qui ne correspond pas entièrement au véritable objectif de l'agent. Ce phénomène est courant dans les applications pratiques, car il est souvent très difficile de concevoir une fonction de récompense qui réponde parfaitement à toutes les attentes. Une mauvaise réduction de la récompense peut entraîner un comportement appris par l’agent incompatible avec notre objectif souhaité. Ce phénomène est parfois appelé « piratage de récompense », c'est-à-dire que l'agent exploite les failles de la fonction de récompense pour obtenir des scores de récompense plus élevés, mais le comportement réel peut être contraire à l'objectif attendu.

En 2022, un article publié par Alexander Pan, Kush Bhatia, Jacob Steinhardt et d'autres intitulé «Les effets d'une mauvaise spécification des récompenses : cartographie et atténuation des modèles mal alignésUne étude approfondie de l'impact de la mauvaise spécification des récompenses a été réalisée. Ils ont construit quatre environnements d'apprentissage par renforcement avec des récompenses mal spécifiées et ont étudié l'impact des capacités de l'agent (capacité du modèle, résolution de l'espace d'action, bruit de l'espace d'observation et temps d'entraînement) sur le comportement de piratage des récompenses. Ils ont constaté que les agents les plus performants étaient plus susceptibles d'exploiter la réduction des erreurs de récompense, ce qui se traduisait par des récompenses indirectes plus élevées et des récompenses réelles plus faibles. De plus, ils ont également découvert le phénomène de « transition de phase », c'est-à-dire que le comportement de l'agent subit un changement qualitatif lorsqu'il atteint un certain seuil de capacité, entraînant une forte baisse des récompenses réelles. Pour relever ce défi, ils ont proposé une tâche de détection d'anomalies pour détecter les politiques anormales et ont fourni plusieurs détecteurs de référence.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 2 ans

Modèle Souping

Model Souping peut générer un meilleur modèle en faisant la moyenne des pondérations de plusieurs ajustements fins.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 2 ans

Modèle Souping

Model Souping peut générer un meilleur modèle en faisant la moyenne des pondérations de plusieurs ajustements fins.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Mauvaise Spécification De La Récompense | Wiki | HyperAI

Command Palette

Mauvaise Spécification De La Récompense

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mauvaise Spécification De La Récompense

Modèle Souping

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mauvaise Spécification De La Récompense

Modèle Souping

Créer de l'IA avec l'IA

HyperAI Newsletters

Modèle Souping

Modèle Souping