Command Palette
Search for a command to run...
Große Schlussfolgerungsmodelle lernen eine bessere Ausrichtung aus fehlerhaften Gedankengängen
ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

Abstract
Große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) „denken“ dadurch, dass sie vor der Generierung einer endgültigen Antwort eine strukturierte Gedankenkette (Chain-of-Thought, CoT) erstellen. Dennoch fehlt ihnen die Fähigkeit, kritisch bezüglich der Sicherheitsausrichtung zu reflektieren, und sie sind anfällig für Verzerrungen, wenn eine fehlerhafte Voraussetzung in ihren Gedankengang eingeflossen ist. Wir stellen RECAP (Robust Safety Alignment via Counter-Aligned Prefilling) vor, eine fundierte Methode des Verstärkungslernens (Reinforcement Learning, RL) für die Nachtrainingsphase, die Modelle explizit lehrt, fehlerhafte Schlussfolgerungspfade zu unterbrechen und stattdessen auf sichere und hilfreiche Antworten umzulenken. RECAP wird auf einer Mischung aus synthetisch generierten, gegenläufig ausgerichteten CoT-Vorbelegen und herkömmlichen Prompt-Texten trainiert, erfordert keine zusätzlichen Trainingskosten oder Modifikationen über die herkömmliche Methode des Verstärkungslernens aus menschlicher Rückmeldung (Reinforcement Learning from Human Feedback, RLHF) hinaus und verbessert signifikant die Sicherheit und Robustheit gegenüber „Jailbreak“-Angriffen, reduziert übermäßige Verweigerungshaltung und bewahrt gleichzeitig die grundlegenden Schlussfolgerungsfähigkeiten – alles unter Beibehaltung des vorgegebenen Token-Budgets für die Inferenz. Ausführliche Analysen zeigen, dass Modelle, die mit RECAP trainiert wurden, häufiger selbstreflektierend agieren und auch unter adaptiven Angriffen robust bleiben, wodurch die Sicherheit auch nach wiederholten Versuchen, ihre Schlussfolgerung zu manipulieren, erhalten bleibt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.