HyperAIHyperAI

Command Palette

Search for a command to run...

Verbessert mathematisches Schließen die allgemeinen Fähigkeiten von LLMs? Verstehen der Übertragbarkeit des LLM-Schließens

Maggie Huan Yuetai Li Tuney Zheng Xiaoyu Xu Seungone Kim Minxin Du Radha Poovendran Graham Neubig Xiang Yue

Zusammenfassung

Die mathematische Schlussfolgerung ist zum Inbegriff des Fortschritts in großen Sprachmodellen (LLMs) geworden, wobei neue Modelle rasch menschliche Leistungsniveaus bei Benchmarks wie MATH und AIME überflügeln. Während sich die Mathematik-Ranglisten Woche für Woche verbessern, ist es jedoch wichtig zu fragen, ob diese Fortschritte eine breitere Problemlösefähigkeit widerspiegeln oder nur ein enges Überfitting. Um diese Frage zu beantworten, bewerten wir über 20 offene Gewichts-Schlussfolgerungsmodelle an einem umfangreichen Satz von Aufgaben, darunter Mathematik, wissenschaftliche QA, Agentenplanung, Programmierung und Standardbefehlsausführung. Überraschenderweise stellen wir fest, dass die meisten Modelle, die in der Mathematik erfolgreich sind, ihre Fortschritte nicht auf andere Bereiche übertragen können. Um dieses Phänomen gründlich zu untersuchen, führen wir kontrollierte Experimente mit Qwen3-14B-Modellen durch, bei denen ausschließlich mathematische Daten verwendet werden, aber verschiedene Feinabstimmungsmethoden angewendet werden. Wir entdecken, dass Modelle, die mit Verstärkungslernen (RL) optimiert wurden, sich gut auf verschiedene Domains verallgemeinern lassen, während Modelle mit überwachter Feinabstimmung (SFT) oft allgemeine Fähigkeiten vergessen. Analysen der Darstellung im Latenten Raum und der Verteilung im Tokenraum zeigen, dass SFT erhebliche Darstellungs- und Ausgabeverschiebungen verursacht, während RL die Struktur des allgemeinen Bereichs beibehält. Unsere Ergebnisse legen nahe, dass es notwendig ist, standardmäßige Post-Training-Rezepte zu überdenken, insbesondere die Abhängigkeit von SFT-verdistillierten Daten zur Weiterentwicklung von Schlussfolgerungsmodellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp