Forscher verbessern KI bei Aufgaben mit Symbolberechnungen
Wissenschaftler haben herausgefunden, dass das Training von Code-Interpretern an den Fähigkeiten des zugrunde liegenden Modells begrenzt ist, und betonen die Notwendigkeit, symbolische Berechnungen in intelligente Systeme zu integrieren. Ein Team um den chinesischen Wissenschaftler Chen Yongchao, der Alumni der University of Science and Technology of China und Doktorand an der Harvard University, hat Modelle wie Qwen-3B/7B/14B durch mehrstufiges überwachtes Feinjustierung (SFT) und Gruppenrelative Strategieoptimierung (GRPO) trainiert. Dabei konnten die Modelle während des Trainings freie Zugriffe auf einen Code-Executor durchführen, um ihre Inferenz- und Planungsfähigkeiten zu verbessern. Diese Aufgaben enthalten oft symbolische Berechnungen, aber es ist notwendig, dass die Modelle lernen, wann sie zwischen textbasierter Inferenz und symbolischer Berechnung wechseln müssen. Chen und sein Team stellten fest, dass das übermäßige Training auf textbasierter Inferenz die Codegenerierungsfähigkeit der Modelle beeinträchtigen kann. Dieses Phänomen zeigt sich besonders bei der Lösung abstrakter Probleme, da die Fähigkeit, diese in Code oder symbolische Berechnungen zu übersetzen, nachlässt. In der Realität sind viele Probleme so strukturiert, dass sie symbolische Berechnungen erfordern, aber die Abstraktion in solche Probleme ist komplex und erfordert viel Denken. Ein weiteres Herausforderung ist die Vielfalt der Aufgaben. Während das Training eines Code-Executors für einzelne Aufgaben einfach ist, haben die Modelle Schwierigkeiten, unterschiedliche Aufgaben zu bewältigen, insbesondere wenn die erforderlichen Strategien gegensätzlich sind. Das Team erkannte, dass reine Verstärkungslernen allein oft nicht ausreicht, um diese Herausforderungen zu meistern. Daher ist die SFT-Phase bei ihren Aufgaben von entscheidender Bedeutung. Chen glaubt, dass zukünftige, auf großen Modellen basierende Agenten oder körperliche Intelligenzsysteme in vielen Aufgaben symbolische Berechnungen integrieren müssen. Dies spiegelt die Meinung vieler Roboterforscher wider, die davon ausgehen, dass zukünftige Modelle eher von visueller Sprache zu Kontrolle als zu Aktionen gelangen werden. Anwendungsfälle könnten virtuelle Welten wie Reiseplanung, Web-Aufgaben und wissenschaftliche Problemstellungen sein. Auch wenn einige Aufgaben keine symbolische Berechnung erfordern, kann die Integration eines Code-Executors dennoch hilfreich sein, zum Beispiel beim Erstellen von Visualisierungen. In ihrer früheren Arbeit, veröffentlicht im ICRA 2024 und NAACL 2025, kombinierten Chen und sein Team große Modelle mit vorgefertigten symbolischen Berechnungs-Tools, um Roboter- und Reiseplanungsaufgaben zu lösen. Obwohl dies effektive Ergebnisse brachte, war die Generalisierungsfähigkeit begrenzt. Um diese Begrenzung zu überwinden, dachten Chen und sein Team darüber nach, wie sie die Generalisierungsfähigkeit großer Modelle beibehalten können, während sie symbolische Berechnungen integrieren. Im Jahr 2024, während einer Ausbildung am Microsoft Research, kam Chen auf die Idee, Code als Träger zu verwenden, um verschiedene Algorithmen, Controller und Planer zu integrieren. Dies ist möglich, da symbolische Berechnungen in vordefinierten Regel- und Programmiersprachen stattfinden, und aktuelle große Modelle nach dem Training natürliche Codeprogrammierungsfähigkeiten besitzen. Das Team vermutete, dass ein effizienter Einsatz von Code-Executors das Lösen von Inferenz- und Planungsaufgaben erheblich vereinfachen würde, ohne die Generalisierungsfähigkeit zu schädigen. Um die bestehenden Probleme zu identifizieren, testeten sie den Code-Interpreter von OpenAI und fanden heraus, dass GPT-4o+ häufig falsche Entscheidungen trifft, indem es textbasierte Inferenz bevorzugt, anstatt Code zu generieren. Selbst wenn sie das Modell durch Anpassung der Eingabeanweisungen dazu brachten, Code zu generieren, war dieser oft ineffektiv und nutzte symbolische Berechnungen nicht optimal. Ähnliche Mängel wurden auch in den neuesten Inferenzmodellen o1, o3 und DeepSeek-R1 festgestellt. Diese Erkenntnisse wurden in einem Paper zusammengefasst, das unter dem Titel "Große Sprachmodelle zwischen Codeausführung und textbasierter Inferenz steuern" (Steering Large Language Models between Code Execution and Textual Reasoning) im International Conference on Learning Representations (ICLR) 2025 veröffentlicht wurde. Um diese Probleme zu beheben, untersuchte das Team zwei Ansätze: erstens, das Training eines zusätzlichen Hilfsmodells, das das Hauptmodell bei der Codegenerierung unterstützt, und zweitens, die direkte Feinjustierung eines einzelnen Modells, um sowohl textbasierte Inferenz als auch symbolische Berechnungen zu beherrschen. Der erste Ansatz, CodeSteer, ermöglichte es GPT-4o, unter der Anleitung eines 8-Billionen-Parameter-Modells, effektiv symbolische Berechnungen zu nutzen und in vielen Aufgaben bessere Ergebnisse als o1 und DeepSeek-R1 zu erzielen. Der zweite Ansatz, R1-Code-Interpreter, wurde in einem Paper mit dem Titel "R1-Code-Interpreter: Große Sprachmodelle zur codesprachlichen Inferenz durch überwachtes und Verstärkungslernen trainieren" (R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning) im arXiv veröffentlicht. Chen sieht die Zukunft darin, dass große Modelle frei zwischen drei Modus wechseln können: 1) direkte Antwortgenerierung, 2) Nutzung externer Tools, und 3) Codegenerierung zur Schaffung geeigneter Tools. Er plant, Methoden zu entwickeln, die diese Modi integrieren, und praxisnahe Anwendungsaufgaben zu bearbeiten, um die Machbarkeit seiner Ideen zu überprüfen. Brancheinsider loben die Arbeit des Teams, da sie wichtige Einsichten in die Grenzen und Möglichkeiten von Code-Executors bei großen Sprachmodellen liefert. Sie sehen in dieser Forschung ein großes Potential, insbesondere für die Entwicklung robuster und flexibler intelligenter Systeme. Chen und sein Team sind bekannt für ihre innovativen Ansätze in der KI-Forschung und haben bereits mehrere bedeutende Beiträge geleistet. Ihre jüngsten Arbeiten, die in führenden Konferenzen wie ICLR, ICRA und NAACL veröffentlicht wurden, zeigen ihre Fähigkeit, komplexe Probleme zu lösen und neuen Forschungswegen zu folgen.