HyperAI超神经

Chen Yongchao, ein Doktorand der Harvard University und ehemaliger Undergraduate-Alumni der University of Science and Technology of China, und sein Team haben kürzlich eine Studie durchgeführt, bei der sie Modelle mit unterschiedlichen Kapazitäten (Qwen-3B/7B/14B) in 144 Aufgaben des Bereichs Inferenz und Planung trainierten. Dabei benutzten sie mehrstufige überwachte Feinabstimmung (SFT, Supervised Fine-Tuning) und gruppenbezogene relativistische Strategieoptimierung (GRPO, Group Relative Policy Optimization). Die Modelle durften während des Trainings mehrfach einen Code-Interpreter verwenden, um die Inferenz zu unterstützen. Diese Aufgaben enthielten Elemente des symbolischen Rechnens, aber das Modell musste selbst lernen, wann es besser war, Textinferenz oder symbolisches Rechnen zu verwenden. Das Team stellte fest, dass der Einsatz eines Code-Interpreters von den Fähigkeiten des Modells abhängt. Übermäßige Schulung auf Textinferenz kann beispielsweise die Codegenerierungsfähigkeiten des Modells herabsetzen, insbesondere bei der Übersetzung abstrakter Probleme in Code oder symbolische Berechnungen. In der Realität sind viele Probleme ähnlich: Sie enthalten symbolische Berechnungen, aber die Abstraktion zu symbolischen Problemen erfordert viel Denken. Zudem stellt die Vielfalt der Aufgaben einen weiteren Herausforderung dar. Während es einfach ist, ein einzelnes Aufgabenbereichssystem zu trainieren, fällt es dem Modell schwer, bei einer Vielzahl von Aufgabentypen die richtige Strategie zu wählen, da die bevorzugten Ansätze oft gegensätzlich sind. Reinforcement Learning allein reicht daher nicht aus, um gute Ergebnisse zu erzielen, insbesondere bei mathematischen oder Suchaufgaben. Chen betont die Wichtigkeit des SFT-Stadiums, um das Modell effektiv für die Aufgaben vorzubereiten. Für zukünftige Agenten oder körperliche Intelligenzsysteme basierend auf großen Modellen wird es wichtig sein, symbolische Berechnungen zu integrieren, ähnlich wie Roboterforscher, die glauben, dass "die Zukunft nicht in der direkten Übersetzung von visuellen Sprachen zu Bewegungen, sondern von visuellen Sprachen zu Kontrolle" liegen wird. Dies wird sich zuerst in virtuellen Welten zeigen, wie z.B. Reiseplanung, Webtasks und wissenschaftliche Problemstellungen. Obwohl viele Aufgaben keine symbolischen Berechnungen erfordern, brauchen sie dennoch einen Code-Interpreter, zum Beispiel zur Erstellung von Visualisierungen. Vor dieser Arbeit nutzten Chen und sein Team in ihren Publikationen AutoTAMP (ICRA 2024) und TravelPlanner (NAACL 2025) vorgefertigte Frameworks und Algorithmen, um große Modelle mit symbolischen Berechnungstools zu verbinden. Obwohl diese Methode gute Ergebnisse brachte, war sie auf spezifische Aufgaben begrenzt. Das Team entdeckte, dass aktuelle Code-Interpreters, einschließlich der von OpenAI und anderen entwickelten, oft ineffizient sind. Sie neigen dazu, Textinferenz zu bevorzugen, auch wenn die Verwendung von Code sinnvoller wäre, und generieren häufig ungültigen Code. Um diese Mängel zu beheben, versuchte das Team zwei Ansätze: Erstens, ein zusätzliches Modell zu trainieren, das das Hauptmodell bei der Entscheidung, ob und welchen Code zu generieren, unterstützt. Dieses Hilfsmodell ist kleiner und leichter zu trainieren, und es kann das aktuelle Höchstniveau des Hauptmodells erforschen. Zweitens, das Hauptmodell direkt zu feinabstimmen, um sowohl Textinferenz als auch symbolische Berechnungen zu beherrschen, was hohe Anforderungen an das Grundmodell stellt. Der erste Ansatz führte zur Entwicklung von CodeSteer, das GPT-4o ermöglicht, unter der Anleitung eines 8B-Modells effizient symbolische Berechnungen durchzuführen und in vielen Aufgaben bessere Ergebnisse als o1 und DeepSeek-R1 erzielte. Der zweite Ansatz wurde im Rahmen der R1-Code-Interpreter-Arbeit erprobt, die am Ende in einem Paper veröffentlicht wurde: "R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning". Chen ist der Meinung, dass zukünftige große Modelle zwischen drei Modus wechseln sollten: 1) Direkte Antwortgenerierung durch Textinferenz oder Kontrollsignale; 2) Nutzung externer Tools; 3) Generierung von Code für die Erstellung geeigneter Tools. Seine zukünftigen Pläne beinhalten die Kombination dieser Modi und ihre Anwendung auf konkrete Aufgaben, um die Machbarkeit zu testen. Industrieexperten sehen in den Ergebnissen dieser Studie einen wichtigen Schritt zur Verbesserung der Effizienz und Flexibilität großer Sprachmodelle. Die Fähigkeit, Textinferenz und symbolische Berechnungen zu kombinieren, könnte die Leistung dieser Modelle bei komplexen Aufgaben erheblich steigern. Microsoft, bei dem Chen während seines Praktikums gearbeitet hat, ist an der Weiterentwicklung solcher Modelle interessiert, da sie potenziell in vielen Anwendungen nützlich sein könnten, von Assistenten in virtuellen Welten bis hin zu fortgeschrittenen Robotersystemen.

Forscherteam verbessert KI-Modelle durch Integration von Symbolberechnungen

Related Links