Command Palette
Search for a command to run...
TUMIX: Multi-Agent Test-Time Scaling mit Werkzeugnutzungsmischung
Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

Abstract
Obwohl die Integration von Tools wie Code Interpreter und Search die Reasoning-Fähigkeiten von Großsprachmodellen (LLM), wie beispielsweise ChatGPT Agent und Gemini-Pro, erheblich verbessert hat, fehlt es bisher an praktischen Leitlinien für eine optimale Nutzung dieser Werkzeuge. Die zentrale Herausforderung besteht darin, textbasiertes Reasoning, Programmierung und Suche effektiv für eine Vielzahl unterschiedlicher Fragen zu kombinieren. In diesem Artikel stellen wir TUMIX (Tool-Use Mixture) vor, einen Ensemble-Framework, der mehrere Agenten parallel ausführt, wobei jeder Agent eine unterschiedliche Strategie zur Werkzeugnutzung und einen spezifischen Antwortpfad verfolgt. Die Agenten in TUMIX tauschen ihre Antworten iterativ aus und verfeinern sie basierend auf der Fragestellung und früheren Antworten. In Experimenten erzielt TUMIX signifikante Verbesserungen gegenüber aktuellen State-of-the-Art-Methoden zur Werkzeugerweiterung und Testzeit-Skalierung: Auf zentralen Reasoning-Benchmarks erreicht TUMIX im Durchschnitt eine Genauigkeitssteigerung von bis zu 3,55 % gegenüber dem besten Baseline-Modell bei Gemini-2.5-Pro und Gemini-2.5-Flash, wobei die Inference-Kosten nahezu identisch bleiben. Wir stellen fest, dass eine hohe Vielfalt und Qualität der Agenten entscheidend sind und sich durch die automatisierte Optimierung der Agentenarchitektur mittels LLMs weiter verbessern lassen. Zudem kann TUMIX die Verfeinerung abbrechen, sobald ausreichend Vertrauen erreicht ist, wodurch die Leistung bei lediglich 49 % der Inference-Kosten erhalten bleibt. Eine weitere Skalierung ermöglicht darüber hinaus höhere Leistung, allerdings zu einem höheren Kostenaufwand.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.