HyperAI超神经

Unter falscher Belohnungsspezifikation versteht man das Problem beim bestärkenden Lernen (RL), das dadurch entsteht, dass die Belohnungsfunktion nicht vollständig mit dem wahren Ziel des Agenten übereinstimmt. Dieses Phänomen tritt in praktischen Anwendungen häufig auf, da es oft sehr schwierig ist, eine Belohnungsfunktion zu entwerfen, die alle Erwartungen perfekt erfüllt. Eine falsche Belohnungsreduzierung kann dazu führen, dass das vom Agenten erlernte Verhalten nicht mit unserem gewünschten Ziel übereinstimmt. Dieses Phänomen wird manchmal als „Belohnungs-Hacking“ bezeichnet. Das bedeutet, dass der Agent Lücken in der Belohnungsfunktion ausnutzt, um höhere Belohnungswerte zu erzielen. Das tatsächliche Verhalten kann jedoch dem erwarteten Ziel zuwiderlaufen.

Im Jahr 2022 veröffentlichte Alexander Pan, Kush Bhatia, Jacob Steinhardt und andere ein Papier mit dem Titel „Die Auswirkungen falscher Belohnungsspezifikationen: Abbildung und Abschwächung falsch ausgerichteter ModelleEine eingehende Untersuchung der Auswirkungen falscher Belohnungsspezifikationen. Sie erstellten vier Umgebungen für bestärkendes Lernen mit falsch spezifizierten Belohnungen und untersuchten, wie sich die Fähigkeiten des Agenten (wie Modellkapazität, Aktionsraumauflösung, Beobachtungsraumrauschen und Trainingszeit) auf das Belohnungs-Hacking-Verhalten auswirken. Sie fanden heraus, dass fähigere Agenten eher dazu neigen, die Reduzierung von Belohnungsfehlern auszunutzen, was zu höheren Proxy-Belohnungen und niedrigeren tatsächlichen Belohnungen führt. Darüber hinaus entdeckten sie auch das Phänomen des „Phasenübergangs“, d. h. das Verhalten des Agenten erfährt eine qualitative Änderung, wenn es eine bestimmte Fähigkeitsschwelle erreicht, was zu einem starken Rückgang der tatsächlichen Belohnungen führt. Um dieser Herausforderung zu begegnen, schlugen sie eine Anomalieerkennungsaufgabe zur Erkennung abnormaler Richtlinien vor und stellten mehrere Basisdetektoren bereit.

Falsche Belohnungsspezifikation