HyperAIHyperAI

Command Palette

Search for a command to run...

Falsche Belohnungsspezifikation

Datum

vor einem Jahr

Unter falscher Belohnungsspezifikation versteht man das Problem beim bestärkenden Lernen (RL), das dadurch entsteht, dass die Belohnungsfunktion nicht vollständig mit dem wahren Ziel des Agenten übereinstimmt. Dieses Phänomen tritt in praktischen Anwendungen häufig auf, da es oft sehr schwierig ist, eine Belohnungsfunktion zu entwerfen, die alle Erwartungen perfekt erfüllt. Eine falsche Belohnungsreduzierung kann dazu führen, dass das vom Agenten erlernte Verhalten nicht mit unserem gewünschten Ziel übereinstimmt. Dieses Phänomen wird manchmal als „Belohnungs-Hacking“ bezeichnet. Das bedeutet, dass der Agent Lücken in der Belohnungsfunktion ausnutzt, um höhere Belohnungswerte zu erzielen. Das tatsächliche Verhalten kann jedoch dem erwarteten Ziel zuwiderlaufen.

Im Jahr 2022 veröffentlichte Alexander Pan, Kush Bhatia, Jacob Steinhardt und andere ein Papier mit dem Titel „Die Auswirkungen falscher Belohnungsspezifikationen: Abbildung und Abschwächung falsch ausgerichteter ModelleEine eingehende Untersuchung der Auswirkungen falscher Belohnungsspezifikationen. Sie erstellten vier Umgebungen für bestärkendes Lernen mit falsch spezifizierten Belohnungen und untersuchten, wie sich die Fähigkeiten des Agenten (wie Modellkapazität, Aktionsraumauflösung, Beobachtungsraumrauschen und Trainingszeit) auf das Belohnungs-Hacking-Verhalten auswirken. Sie fanden heraus, dass fähigere Agenten eher dazu neigen, die Reduzierung von Belohnungsfehlern auszunutzen, was zu höheren Proxy-Belohnungen und niedrigeren tatsächlichen Belohnungen führt. Darüber hinaus entdeckten sie auch das Phänomen des „Phasenübergangs“, d. h. das Verhalten des Agenten erfährt eine qualitative Änderung, wenn es eine bestimmte Fähigkeitsschwelle erreicht, was zu einem starken Rückgang der tatsächlichen Belohnungen führt. Um dieser Herausforderung zu begegnen, schlugen sie eine Anomalieerkennungsaufgabe zur Erkennung abnormaler Richtlinien vor und stellten mehrere Basisdetektoren bereit.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Falsche Belohnungsspezifikation | Wiki | HyperAI