Command Palette
Search for a command to run...
Emergente Fehlausrichtung durch Kontextlernverfahren: Eng begrenzte Kontextbeispiele können allgemein fehlausgerichtete große Sprachmodelle hervorrufen

Abstract
Neuere Arbeiten haben gezeigt, dass eine enge Fine-Tuning-Phase zu breit angepassten, jedoch falsch ausgerichteten großen Sprachmodellen führen kann – ein Phänomen, das als „emergente Fehlausrichtung“ (emergent misalignment, EM) bezeichnet wird. Obwohl diese Ergebnisse besorgniserregend sind, beschränkten sie sich bisher auf Fine-Tuning und Activation Steering, wobei der Kontextlernprozess (in-context learning, ICL) außer Acht gelassen wurde. Wir fragen daher: Tritt EM auch im Rahmen des ICL auf? Unsere Untersuchung zeigt: Ja – an drei Datensätzen und drei führenden Modellen treten breit angepasste, falsch ausgerichtete Antworten bei Verwendung von 64 engen Kontextbeispielen mit einer Häufigkeit zwischen 2 % und 17 % auf, und steigen bis zu 58 % an, wenn 256 Beispiele verwendet werden. Zudem analysieren wir die zugrundeliegenden Mechanismen von EM, indem wir schrittweise Denkprozesse (chain-of-thought) anfordern, wobei die Kontextbeispiele unverändert bleiben. Die manuelle Auswertung der resultierenden Denkketten zeigt, dass 67,5 % der fehlausgerichteten Abläufe schädliche Ausgaben explizit durch die Annahme einer rücksichtslosen oder gefährlichen „Persönlichkeit“ rechtfertigen, was frühere Befunde zu durch Fine-Tuning induzierter EM bestätigt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.