vor 2 Monaten

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$-bench

Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

Abstract

Neuere Fortschritte in den Schlussfolgerungs- und Planungsfähigkeiten großer Sprachmodelle (LLMs) haben deren Potenzial als autonome Agenten ermöglicht, die Werkzeuge in dynamischen Umgebungen nutzen können. Allerdings leiden diese Agenten in mehrschrittigen Gesprächsumgebungen wie $τ$-bench häufig unter inkonsistenten Schlussfolgerungen, mangelnder Einhaltung domain-spezifischer Richtlinien und fehlerhafter Informationsextraktion über einen längeren Zeitraum von Werkzeugaufrufen und Gesprächen. Um diese Fehler zu erfassen und zu mindern, führen wir eine umfassende manuelle Analyse der häufig auftretenden Fehler in den Gesprächstrajektorien durch. Anschließend testen wir verschiedene Umformulierungen der Eingaben für den Werkzeugaufruf-Agenten, um die Entscheidungsqualität des Agents zu verbessern. Schließlich stellen wir den Input-Reformulation Multi-Agent (IRMA)-Rahmen vor, der Benutzeranfragen automatisch um relevante Domänenregeln und Werkzeugvorschläge ergänzt, damit der Werkzeugaufruf-Agent sich gezielt auf die entscheidungsrelevanten Aspekte konzentrieren kann. Die Ergebnisse zeigen, dass IRMA im Vergleich zu ReAct, Function Calling und Self-Reflection die Gesamtpass^5-Scores um 16,1 %, 12,7 % bzw. 19,1 % übertrifft. Diese Ergebnisse unterstreichen die überlegene Zuverlässigkeit und Konsistenz von IRMA gegenüber anderen Methoden in dynamischen Umgebungen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$-bench

Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

Abstract

KI mit KI entwickeln

Hyper Newsletters