QFFT, Fragefreies Feinabstimmung für adaptive Schlussfolgerungen

Neuere Fortschritte bei Modellen für langes Kette-von-Gedanken-(CoT)-Schließen haben die Leistung bei komplexen Aufgaben verbessert, leiden jedoch unter Überdenken, das insbesondere bei einfachen Fragen überflüssige Schritte der Begründung erzeugt. In dieser Arbeit werden die Schließe-Muster von langen und kurzen CoT-Modellen erneut untersucht. Es wird beobachtet, dass die Muster der kurzen CoT-Modelle effizient prägnantes Denken bieten, während die Muster der langen CoT-Modelle in herausfordernden Situationen hervorragen, in denen die kurzen CoT-Muster Schwierigkeiten haben. Um den Modellen zu ermöglichen, beide Muster zu nutzen, schlagen wir das fragefreie Feinabstimmungsverfahren (Question-Free Fine-Tuning, QFFT) vor. Dabei wird die Eingabe-Frage während des Trainings entfernt und das Lernen ausschließlich anhand langer CoT-Antworten durchgeführt. Dieses Verfahren ermöglicht es dem Modell, adaptive Anwendung beider Schließe-Muster zu gewährleisten: Es setzt Priorität auf die kurzen CoT-Muster und aktiviert die langen CoT-Muster nur dann, wenn dies erforderlich ist. Experimente mit verschiedenen mathematischen Datensätzen zeigen, dass QFFT den durchschnittlichen Antwortlänge um mehr als 50 % reduziert, gleichzeitig aber eine vergleichbare Leistung wie beim überwachten Feinabstimmungsverfahren (Supervised Fine-Tuning, SFT) erreicht. Zudem zeigt QFFT in störanfälligen, außerhalb des Trainingsbereichs liegenden und ressourcenarmen Szenarien eine überlegene Leistung im Vergleich zu SFT.