HyperAIHyperAI

Command Palette

Search for a command to run...

Mind2Web 2: Evaluation der agentialen Suche mit Agent-as-a-Judge

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

Zusammenfassung

Agentenbasierte Suchsysteme wie Deep Research, bei denen große Sprachmodelle autonom das Internet durchsuchen, Informationen synthetisieren und umfassende, zitierfähige Antworten liefern, stellen einen bedeutenden Paradigmenwechsel in der Interaktion von Nutzern mit webbasierten Informationen dar. Obwohl sie eine größere Effizienz und kognitive Entlastung versprechen, haben die wachsende Komplexität und Offenheit dieser Suchsysteme den existierenden Bewertungsstandards und -methoden überflügelt, die in der Regel kurze Suchhorizonte und statische Antworten voraussetzen. In dieser Arbeit stellen wir Mind2Web 2 vor, ein Benchmark-Set aus 130 realistischen, hochwertigen und langfristigen Aufgaben, die Echtzeit-Webdurchsuchungen und umfangreiche Informationsverarbeitung erfordern. Dieses Set wurde mit über 1.000 Stunden menschlicher Arbeitskraft erstellt. Um die Herausforderung der Bewertung zeitlich variabler und komplexer Antworten zu bewältigen, schlagen wir ein neues Agent-as-a-Judge-Framework (Agent als Richter) vor. Unsere Methode erstellt aufgabenbezogene Richteragenten basierend auf einem baumstrukturierten Bewertungsdesign, um automatisch sowohl die Antwortkorrektheit als auch die Quellenzuschreibung zu bewerten. Wir führen eine umfassende Evaluierung von neun avantgardistischen agentenbasierten Suchsystemen sowie menschlicher Leistung durch und ergänzen diese durch eine detaillierte Fehlerrateanalyse, um Erkenntnisse für zukünftige Entwicklungen zu gewinnen. Das beste System, OpenAI Deep Research, kann bereits 50-70% der menschlichen Leistung erreichen, während es nur halb so viel Zeit benötigt, was großes Potenzial zeigt. Zusammenfassend bietet Mind2Web 2 eine strenge Grundlage für die Entwicklung und Bewertung der nächsten Generation agentenbasierter Suchsysteme.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp