HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen

Abstract

Sprachagenten haben ein beachtliches Potenzial im Bereich Web-Suche und Informationsabruf gezeigt. Doch diese Suchagenten gehen davon aus, dass Nutzeranfragen vollständig und eindeutig sind – eine Annahme, die von der Realität abweicht, in der Nutzer häufig mit unvollständigen Anfragen beginnen, die durch Interaktion geklärt werden müssen. Die meisten Agenten verfügen jedoch über keine interaktiven Mechanismen während des Suchprozesses, und bestehende Benchmarks können diese Fähigkeit nicht bewerten. Um diese Lücke zu schließen, stellen wir InteractComp vor, ein Benchmark-System, das darauf abzielt, zu überprüfen, ob Suchagenten die Mehrdeutigkeit von Anfragen erkennen und aktiv interagieren, um diese zu klären. Ausgehend vom Prinzip „leicht überprüfbar, interagieren zur Klärung“ haben wir 210 von Experten kuratierte Fragen aus neun unterschiedlichen Domänen mittels einer Ziel-Distraction-Methode erstellt, die echte Mehrdeutigkeit erzeugt, die nur durch Interaktion aufgelöst werden kann. Die Bewertung von 17 Modellen offenbart erschreckende Schwächen: Das beste Modell erreicht lediglich eine Genauigkeit von 13,73 %, obwohl es bei vollständigem Kontext eine Genauigkeit von 71,50 % erzielt – ein deutliches Zeichen systematischer Überconfidentheit statt mangelnder Schlussfolgerungsfähigkeit. Erzwungene Interaktion führt zu dramatischen Verbesserungen und zeigt eine latente Fähigkeit, die bisherige Strategien nicht ansprechen können. Eine Langzeitanalyse zeigt, dass die Interaktionsfähigkeit über einen Zeitraum von 15 Monaten stagnierte, während die Suchleistung sich um das Siebenfache verbesserte – ein kritischer Blindspot wird sichtbar. Diese Stagnation, kombiniert mit der unmittelbaren Rückmeldung, die Suchaufgaben inhärent sind, macht InteractComp zu einem wertvollen Werkzeug sowohl zur Bewertung als auch zur Schulung von Interaktionsfähigkeiten bei Suchagenten. Der Quellcode ist unter https://github.com/FoundationAgents/InteractComp verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen | Forschungsarbeiten | HyperAI