HyperAI超神经

Künstliche Intelligenz (KI) unterstützt Sprachmodelle bei der Entscheidung zwischen Text und Code zur Problemlösung Ein Schema zur multiplen Datenabfrage mit CodeSteer zeigt blaue Quadrate für Zwischenschritte (nicht endgültige Durchgänge) und braune Ovale für endgültige Durchgänge. Quelle: arXiv (2025). DOI: 10.48550/arxiv.2502.04350 Große Sprachmodelle (LLMs) sind Meister darin, textbasierte Argumentationen zu führen, um den Kontext eines Dokuments zu verstehen und logische Antworten darauf zu geben. Allerdings geraten sie häufig ins Stocken, wenn es um einfache mathematische Aufgaben geht. Textbasierte Überlegungen sind in der Regel nicht die beste Methode für computergestützte oder algorithmische Aufgaben. Obwohl einige LLMs in der Lage sind, Code wie Python zu generieren, um symbolische Abfragen zu bearbeiten, wissen sie nicht immer, wann sie Code einsetzen sollten oder welcher Code am besten geeignet ist. Hier kommt CodeSteer ins Spiel. Diese intelligente Assistenz, entwickelt von Forschern des Massachusetts Institute of Technology (MIT), leitet ein größeres Sprachmodell durch eine Reihe von Schritten, bis es die richtige Antwort auf eine Abfrage gefunden hat. CodeSteer, selbst ein kleineres LLM, erzeugt automatisch eine Reihe von Prompten, um das größere Modell iterativ zu steuern. Es überprüft nach jeder Runde die aktuellen und vorherigen Antworten des Modells und gibt Anweisungen, wie es die Lösung verbessern oder verfeinern kann, bis die Antwort korrekt ist. Die Studie ergab, dass das Hinzufügen von CodeSteer das Leistungsfähigkeit des größeren Modells bei symbolischen Aufgaben, wie der Multiplikation von Zahlen, dem Lösen von Sudokus oder dem Stapeln von Blöcken, um mehr als 30% steigert. Es ermöglicht auch weniger fortgeschrittene Modelle, bessere Leistungen als hochentwickelte Modelle mit erweiterten Fähigkeiten zu erzielen. Diese Innovation kann die Problemlösungsfähigkeiten von LLMs für komplexe Aufgaben verbessern, die besonders schwierig mit rein textbasierter Argumentation gelöst werden können. Beispiele hierfür sind die Generierung von Pfaden für Roboter in unsicheren Umgebungen oder die Planung von Frachtsendungen in globalen Logistikketten. Chuchu Fan, Associate Professor für Aeronautik und Astronautik am MIT und Principal Investigator am MIT Laboratory for Information and Decision Systems (LIDS), erklärt: „Es gibt einen Wettkampf, um immer bessere Modelle zu entwickeln, die alles können. Wir haben jedoch einen komplementären Ansatz gewählt. Wissenschaftler haben jahrelang effektive Technologien und Werkzeuge für verschiedene Problemfelder entwickelt. Unser Ziel ist es, LLMs zu befähigen, die richtigen Werkzeuge und Methoden auszuwählen und das Expertenwissen anderer zu nutzen, um ihre eigenen Fähigkeiten zu erweitern.“ Fan, der senior Autor der Studie, arbeitete zusammen mit LIDS-Graduiertenstudenten Yongchao Chen und Yilun Hao, Graduiertenstudenten der Universität Illinois at Urbana-Champaign Yueying Liu und Forschungswissenschaftler am MIT-IBM Watson AI Lab Yang Zhang. Die Ergebnisse werden auf der International Conference on Machine Learning vorgestellt. Eine KI für LLMs Wenn man ein LLM fragt, welche Zahl größer ist, 9.11 oder 9.9, wird es häufig die falsche Antwort durch textbasierte Argumentation geben. Bittet man es jedoch, Code zu verwenden, kann es ein Python-Skript generieren und ausführen, um die beiden Zahlen zu vergleichen und das Problem leicht lösen. LLMs wurden ursprünglich trainiert, menschliche Sprache zu verstehen und vorherzusagen, weshalb sie neigen, Abfragen durch textbasierte Antworten zu beantworten, auch wenn Code effektiver wäre. Obwohl sie durch Feinabstimmung gelernt haben, Code zu generieren, produzieren diese Modelle oft fehlerhaften oder ineffizienten Code. Anstatt mächtige Modelle wie GPT-4 oder Claude direkt weiterzutrainieren, um diese Fähigkeiten zu verbessern, feinabstimmten die MIT-Forscher ein kleineres, leichtgewichtiges LLM, um das größere Modell zwischen Text und Code zu leiten. Das Feinabstimmung des kleineren Modells beeinträchtigt das größere LLM nicht, sodass keine Gefahr besteht, dass dessen andere Fähigkeiten geschwächt werden. „Wir haben uns auch von Menschen inspirieren lassen. In Sport kann ein Trainer oft hilfreiche Vorschläge machen, auch wenn er nicht besser als der Sternsportler ist. Diese Steuerungsmethode funktioniert auch bei LLMs“, sagt Chen. CodeSteer arbeitet in Zusammenhang mit dem größeren LLM. Es prüft zunächst eine Abfrage und entscheidet, ob Text oder Code für dieses Problem geeignet ist und welcher Art von Code am besten geeignet wäre. Danach erzeugt es einen Prompt für das größere LLM, der es anweist, entweder eine codierte Methode oder textbasierte Argumentation zu verwenden, um die Abfrage zu beantworten. Das größere Modell folgt diesem Prompt, antwortet auf die Abfrage und sendet das Ergebnis zurück an CodeSteer, das es überprüft. Falls die Antwort nicht korrekt ist, erzeugt CodeSteer weitere Prompte, die das LLM dazu anhalten, verschiedene Ansätze zu versuchen, die das Problem lösen könnten, wie z.B. die Einbeziehung eines Suchalgorithmus oder einer Einschränkung in seinen Python-Code, bis die Antwort korrekt ist. „Wir stellten fest, dass das größere LLM häufig faul sein will und einen kürzeren, weniger effizienten Code verwendet, der die richtige symbolische Berechnung nicht durchführt. Wir haben CodeSteer so gestaltet, dass es dieses Verhalten vermeidet“, fügt Chen hinzu. Ein symbolischer Prüfer bewertet die Komplexität des Codes und sendet ein Signal an CodeSteer, falls dieser zu einfach oder ineffizient ist. Die Forscher integrieren auch einen Selbstantwortprüfer in CodeSteer, der das LLM anweist, Code zu generieren, der die Richtigkeit der Antwort überprüft. Angesichts komplexer Aufgaben Bei der Entwicklung von CodeSteer fanden die Forscher keine geeigneten symbolischen Datensätze, um das Modell zu feinabstimmen und zu testen, da viele existierende Benchmarks nicht angeben, ob eine bestimmte Abfrage am besten durch Text oder Code gelöst werden kann. Daher sammelten sie ein Korpus von 37 komplexen symbolischen Aufgaben, einschließlich räumlicher Überlegungen, Mathematik, Ordnungsüberlegungen und Optimierung, und erstellten ihren eigenen Datensatz, genannt SymBench. Sie implementierten eine Feinabstimmungsmethode, die SymBench nutzt, um die Leistung von CodeSteer zu maximieren. In ihren Experimenten übertraf CodeSteer alle neun Baseline-Methoden, die sie evaluierten, und steigerte die durchschnittliche Genauigkeit von 53,3% auf 86,4%. Es behält ähnliche Leistungen auch bei unbekannten Aufgaben und auf verschiedenen LLMs. Darüber hinaus kann ein allgemein eingesetztes Modell, das mit CodeSteer augmentiert wurde, höhere Genauigkeit als fortschrittliche Modelle erzielen, die speziell auf komplexe Überlegungen und Planungen ausgelegt sind, und zwar mit viel weniger Rechenleistung. „Unsere Methode nutzt die vorhandenen Fähigkeiten eines LLMs. Indem wir ein LLM mit der Fähigkeit versehen, intelligent Code zu verwenden, können wir ein bereits sehr starkes Modell noch weiter verbessern“, sagt Chen. Zukünftige Forschungen zielen darauf ab, CodeSteer zu optimieren, um den iterativen Promptprozess zu beschleunigen. Zudem untersuchen die Forscher, wie man ein einheitliches Modell effektiv feinabstimmen kann, das zwischen textbasierter Argumentation und Codegenerierung wechseln kann, anstatt sich auf eine separate Assistenz zu verlassen. Branchenexperten loben die Innovation von CodeSteer. Jinsung Yoon, Staff Research Scientist bei Google Cloud AI, der nicht an der Studie beteiligt war, erklärt: „Die Autoren präsentieren eine elegante Lösung für die wichtige Herausforderung der Werkzeugnutzung in LLMs. Diese einfache, aber einflussreiche Methode ermöglicht es den modernsten LLMs, signifikante Leistungsverbesserungen zu erzielen, ohne direkt feinabgestimmt zu werden.“ Chi Wang, Senior Staff Scientist bei Google DeepMind, der ebenfalls nicht an der Studie beteiligt war, fügt hinzu: „Ihr Erfolg bei der Schulung eines kleineren, spezialisierten Modells, um größere, fortgeschrittene Modelle strategisch zu leiten, ist besonders bedeutsam. Diese intelligente Zusammenarbeit verschiedener KI-Agenten bahnt den Weg für robuster und vielseitiger anwendbare Lösungen in komplexen Realwelt-Szenarien.“ Das MIT Laboratory for Information and Decision Systems (LIDS) ist bekannt für seine Forschung im Bereich KI und maschinelles Lernen. Die Studie unterstreicht die Bedeutung des interdisziplinären Ansatzes und zeigt, wie kleinere, spezialisierte Modelle große LLMs effektiv unterstützen können.

MIT-Team entwickelt CodeSteer, um KI bei komplexen Problemen zu unterstützen.

Related Links