HyperAI
vor einem Tag

Verbessert mathematisches Schließen die allgemeinen Fähigkeiten von LLMs? Verstehen der Übertragbarkeit des LLM-Schließens

Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
Verbessert mathematisches Schließen die allgemeinen Fähigkeiten von LLMs? Verstehen der Übertragbarkeit des LLM-Schließens
Abstract

Die mathematische Schlussfolgerung ist zum Inbegriff des Fortschritts in großen Sprachmodellen (LLMs) geworden, wobei neue Modelle rasch menschliche Leistungsniveaus bei Benchmarks wie MATH und AIME überflügeln. Während sich die Mathematik-Ranglisten Woche für Woche verbessern, ist es jedoch wichtig zu fragen, ob diese Fortschritte eine breitere Problemlösefähigkeit widerspiegeln oder nur ein enges Überfitting. Um diese Frage zu beantworten, bewerten wir über 20 offene Gewichts-Schlussfolgerungsmodelle an einem umfangreichen Satz von Aufgaben, darunter Mathematik, wissenschaftliche QA, Agentenplanung, Programmierung und Standardbefehlsausführung. Überraschenderweise stellen wir fest, dass die meisten Modelle, die in der Mathematik erfolgreich sind, ihre Fortschritte nicht auf andere Bereiche übertragen können. Um dieses Phänomen gründlich zu untersuchen, führen wir kontrollierte Experimente mit Qwen3-14B-Modellen durch, bei denen ausschließlich mathematische Daten verwendet werden, aber verschiedene Feinabstimmungsmethoden angewendet werden. Wir entdecken, dass Modelle, die mit Verstärkungslernen (RL) optimiert wurden, sich gut auf verschiedene Domains verallgemeinern lassen, während Modelle mit überwachter Feinabstimmung (SFT) oft allgemeine Fähigkeiten vergessen. Analysen der Darstellung im Latenten Raum und der Verteilung im Tokenraum zeigen, dass SFT erhebliche Darstellungs- und Ausgabeverschiebungen verursacht, während RL die Struktur des allgemeinen Bereichs beibehält. Unsere Ergebnisse legen nahe, dass es notwendig ist, standardmäßige Post-Training-Rezepte zu überdenken, insbesondere die Abhängigkeit von SFT-verdistillierten Daten zur Weiterentwicklung von Schlussfolgerungsmodellen.