HyperAIHyperAI

Command Palette

Search for a command to run...

QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

Zusammenfassung

Neuere Fortschritte bei Modellen für langes Kette-von-Gedanken-(CoT)-Schließen haben die Leistung bei komplexen Aufgaben verbessert, leiden jedoch unter Überdenken, das insbesondere bei einfachen Fragen überflüssige Schritte der Begründung erzeugt. In dieser Arbeit werden die Schließe-Muster von langen und kurzen CoT-Modellen erneut untersucht. Es wird beobachtet, dass die Muster der kurzen CoT-Modelle effizient prägnantes Denken bieten, während die Muster der langen CoT-Modelle in herausfordernden Situationen hervorragen, in denen die kurzen CoT-Muster Schwierigkeiten haben. Um den Modellen zu ermöglichen, beide Muster zu nutzen, schlagen wir das fragefreie Feinabstimmungsverfahren (Question-Free Fine-Tuning, QFFT) vor. Dabei wird die Eingabe-Frage während des Trainings entfernt und das Lernen ausschließlich anhand langer CoT-Antworten durchgeführt. Dieses Verfahren ermöglicht es dem Modell, adaptive Anwendung beider Schließe-Muster zu gewährleisten: Es setzt Priorität auf die kurzen CoT-Muster und aktiviert die langen CoT-Muster nur dann, wenn dies erforderlich ist. Experimente mit verschiedenen mathematischen Datensätzen zeigen, dass QFFT den durchschnittlichen Antwortlänge um mehr als 50 % reduziert, gleichzeitig aber eine vergleichbare Leistung wie beim überwachten Feinabstimmungsverfahren (Supervised Fine-Tuning, SFT) erreicht. Zudem zeigt QFFT in störanfälligen, außerhalb des Trainingsbereichs liegenden und ressourcenarmen Szenarien eine überlegene Leistung im Vergleich zu SFT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen | Paper | HyperAI