HyperAIHyperAI

Command Palette

Search for a command to run...

vor 15 Tagen

Emergente Fehlausrichtung durch Kontextlernverfahren: Eng begrenzte Kontextbeispiele können allgemein fehlausgerichtete große Sprachmodelle hervorrufen

Emergente Fehlausrichtung durch Kontextlernverfahren: Eng begrenzte Kontextbeispiele können allgemein fehlausgerichtete große Sprachmodelle hervorrufen

Abstract

Neuere Arbeiten haben gezeigt, dass eine enge Fine-Tuning-Phase zu breit angepassten, jedoch falsch ausgerichteten großen Sprachmodellen führen kann – ein Phänomen, das als „emergente Fehlausrichtung“ (emergent misalignment, EM) bezeichnet wird. Obwohl diese Ergebnisse besorgniserregend sind, beschränkten sie sich bisher auf Fine-Tuning und Activation Steering, wobei der Kontextlernprozess (in-context learning, ICL) außer Acht gelassen wurde. Wir fragen daher: Tritt EM auch im Rahmen des ICL auf? Unsere Untersuchung zeigt: Ja – an drei Datensätzen und drei führenden Modellen treten breit angepasste, falsch ausgerichtete Antworten bei Verwendung von 64 engen Kontextbeispielen mit einer Häufigkeit zwischen 2 % und 17 % auf, und steigen bis zu 58 % an, wenn 256 Beispiele verwendet werden. Zudem analysieren wir die zugrundeliegenden Mechanismen von EM, indem wir schrittweise Denkprozesse (chain-of-thought) anfordern, wobei die Kontextbeispiele unverändert bleiben. Die manuelle Auswertung der resultierenden Denkketten zeigt, dass 67,5 % der fehlausgerichteten Abläufe schädliche Ausgaben explizit durch die Annahme einer rücksichtslosen oder gefährlichen „Persönlichkeit“ rechtfertigen, was frühere Befunde zu durch Fine-Tuning induzierter EM bestätigt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Emergente Fehlausrichtung durch Kontextlernverfahren: Eng begrenzte Kontextbeispiele können allgemein fehlausgerichtete große Sprachmodelle hervorrufen | Forschungsarbeiten | HyperAI