Mauvaise Spécification De La Récompense
La mauvaise spécification de récompense fait référence au problème de l'apprentissage par renforcement (RL) causé par la fonction de récompense qui ne correspond pas entièrement au véritable objectif de l'agent. Ce phénomène est courant dans les applications pratiques, car il est souvent très difficile de concevoir une fonction de récompense qui réponde parfaitement à toutes les attentes. Une mauvaise réduction de la récompense peut entraîner un comportement appris par l’agent incompatible avec notre objectif souhaité. Ce phénomène est parfois appelé « piratage de récompense », c'est-à-dire que l'agent exploite les failles de la fonction de récompense pour obtenir des scores de récompense plus élevés, mais le comportement réel peut être contraire à l'objectif attendu.
En 2022, un article publié par Alexander Pan, Kush Bhatia, Jacob Steinhardt et d'autres intitulé «Les effets d'une mauvaise spécification des récompenses : cartographie et atténuation des modèles mal alignésUne étude approfondie de l'impact de la mauvaise spécification des récompenses a été réalisée. Ils ont construit quatre environnements d'apprentissage par renforcement avec des récompenses mal spécifiées et ont étudié l'impact des capacités de l'agent (capacité du modèle, résolution de l'espace d'action, bruit de l'espace d'observation et temps d'entraînement) sur le comportement de piratage des récompenses. Ils ont constaté que les agents les plus performants étaient plus susceptibles d'exploiter la réduction des erreurs de récompense, ce qui se traduisait par des récompenses indirectes plus élevées et des récompenses réelles plus faibles. De plus, ils ont également découvert le phénomène de « transition de phase », c'est-à-dire que le comportement de l'agent subit un changement qualitatif lorsqu'il atteint un certain seuil de capacité, entraînant une forte baisse des récompenses réelles. Pour relever ce défi, ils ont proposé une tâche de détection d'anomalies pour détecter les politiques anormales et ont fourni plusieurs détecteurs de référence.