vor einem Monat

Große Schlussfolgerungsmodelle lernen eine bessere Ausrichtung aus fehlerhaften Gedankengängen

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

Abstract

Große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) „denken“ dadurch, dass sie vor der Generierung einer endgültigen Antwort eine strukturierte Gedankenkette (Chain-of-Thought, CoT) erstellen. Dennoch fehlt ihnen die Fähigkeit, kritisch bezüglich der Sicherheitsausrichtung zu reflektieren, und sie sind anfällig für Verzerrungen, wenn eine fehlerhafte Voraussetzung in ihren Gedankengang eingeflossen ist. Wir stellen RECAP (Robust Safety Alignment via Counter-Aligned Prefilling) vor, eine fundierte Methode des Verstärkungslernens (Reinforcement Learning, RL) für die Nachtrainingsphase, die Modelle explizit lehrt, fehlerhafte Schlussfolgerungspfade zu unterbrechen und stattdessen auf sichere und hilfreiche Antworten umzulenken. RECAP wird auf einer Mischung aus synthetisch generierten, gegenläufig ausgerichteten CoT-Vorbelegen und herkömmlichen Prompt-Texten trainiert, erfordert keine zusätzlichen Trainingskosten oder Modifikationen über die herkömmliche Methode des Verstärkungslernens aus menschlicher Rückmeldung (Reinforcement Learning from Human Feedback, RLHF) hinaus und verbessert signifikant die Sicherheit und Robustheit gegenüber „Jailbreak“-Angriffen, reduziert übermäßige Verweigerungshaltung und bewahrt gleichzeitig die grundlegenden Schlussfolgerungsfähigkeiten – alles unter Beibehaltung des vorgegebenen Token-Budgets für die Inferenz. Ausführliche Analysen zeigen, dass Modelle, die mit RECAP trainiert wurden, häufiger selbstreflektierend agieren und auch unter adaptiven Angriffen robust bleiben, wodurch die Sicherheit auch nach wiederholten Versuchen, ihre Schlussfolgerung zu manipulieren, erhalten bleibt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Große Schlussfolgerungsmodelle lernen eine bessere Ausrichtung aus fehlerhaften Gedankengängen

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

Abstract

KI mit KI entwickeln

Hyper Newsletters