Command Palette
Search for a command to run...
Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$-bench
Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

Abstract
Neuere Fortschritte in den Schlussfolgerungs- und Planungsfähigkeiten großer Sprachmodelle (LLMs) haben deren Potenzial als autonome Agenten ermöglicht, die Werkzeuge in dynamischen Umgebungen nutzen können. Allerdings leiden diese Agenten in mehrschrittigen Gesprächsumgebungen wie $τ$-bench häufig unter inkonsistenten Schlussfolgerungen, mangelnder Einhaltung domain-spezifischer Richtlinien und fehlerhafter Informationsextraktion über einen längeren Zeitraum von Werkzeugaufrufen und Gesprächen. Um diese Fehler zu erfassen und zu mindern, führen wir eine umfassende manuelle Analyse der häufig auftretenden Fehler in den Gesprächstrajektorien durch. Anschließend testen wir verschiedene Umformulierungen der Eingaben für den Werkzeugaufruf-Agenten, um die Entscheidungsqualität des Agents zu verbessern. Schließlich stellen wir den Input-Reformulation Multi-Agent (IRMA)-Rahmen vor, der Benutzeranfragen automatisch um relevante Domänenregeln und Werkzeugvorschläge ergänzt, damit der Werkzeugaufruf-Agent sich gezielt auf die entscheidungsrelevanten Aspekte konzentrieren kann. Die Ergebnisse zeigen, dass IRMA im Vergleich zu ReAct, Function Calling und Self-Reflection die Gesamtpass^5-Scores um 16,1 %, 12,7 % bzw. 19,1 % übertrifft. Diese Ergebnisse unterstreichen die überlegene Zuverlässigkeit und Konsistenz von IRMA gegenüber anderen Methoden in dynamischen Umgebungen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.