Command Palette
Search for a command to run...
QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen
QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen
Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang
Zusammenfassung
Neuere Fortschritte bei Modellen für langes Kette-von-Gedanken-(CoT)-Schließen haben die Leistung bei komplexen Aufgaben verbessert, leiden jedoch unter Überdenken, das insbesondere bei einfachen Fragen überflüssige Schritte der Begründung erzeugt. In dieser Arbeit werden die Schließe-Muster von langen und kurzen CoT-Modellen erneut untersucht. Es wird beobachtet, dass die Muster der kurzen CoT-Modelle effizient prägnantes Denken bieten, während die Muster der langen CoT-Modelle in herausfordernden Situationen hervorragen, in denen die kurzen CoT-Muster Schwierigkeiten haben. Um den Modellen zu ermöglichen, beide Muster zu nutzen, schlagen wir das fragefreie Feinabstimmungsverfahren (Question-Free Fine-Tuning, QFFT) vor. Dabei wird die Eingabe-Frage während des Trainings entfernt und das Lernen ausschließlich anhand langer CoT-Antworten durchgeführt. Dieses Verfahren ermöglicht es dem Modell, adaptive Anwendung beider Schließe-Muster zu gewährleisten: Es setzt Priorität auf die kurzen CoT-Muster und aktiviert die langen CoT-Muster nur dann, wenn dies erforderlich ist. Experimente mit verschiedenen mathematischen Datensätzen zeigen, dass QFFT den durchschnittlichen Antwortlänge um mehr als 50 % reduziert, gleichzeitig aber eine vergleichbare Leistung wie beim überwachten Feinabstimmungsverfahren (Supervised Fine-Tuning, SFT) erreicht. Zudem zeigt QFFT in störanfälligen, außerhalb des Trainingsbereichs liegenden und ressourcenarmen Szenarien eine überlegene Leistung im Vergleich zu SFT.