HyperAIHyperAI
vor 2 Monaten

Mind2Web 2: Evaluation der agentialen Suche mit Agent-as-a-Judge

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, et al
Mind2Web 2: Evaluation der agentialen Suche mit Agent-as-a-Judge
Abstract

Agentenbasierte Suchsysteme wie Deep Research, bei denen große Sprachmodelle autonom das Internet durchsuchen, Informationen synthetisieren und umfassende, zitierfähige Antworten liefern, stellen einen bedeutenden Paradigmenwechsel in der Interaktion von Nutzern mit webbasierten Informationen dar. Obwohl sie eine größere Effizienz und kognitive Entlastung versprechen, haben die wachsende Komplexität und Offenheit dieser Suchsysteme den existierenden Bewertungsstandards und -methoden überflügelt, die in der Regel kurze Suchhorizonte und statische Antworten voraussetzen. In dieser Arbeit stellen wir Mind2Web 2 vor, ein Benchmark-Set aus 130 realistischen, hochwertigen und langfristigen Aufgaben, die Echtzeit-Webdurchsuchungen und umfangreiche Informationsverarbeitung erfordern. Dieses Set wurde mit über 1.000 Stunden menschlicher Arbeitskraft erstellt. Um die Herausforderung der Bewertung zeitlich variabler und komplexer Antworten zu bewältigen, schlagen wir ein neues Agent-as-a-Judge-Framework (Agent als Richter) vor. Unsere Methode erstellt aufgabenbezogene Richteragenten basierend auf einem baumstrukturierten Bewertungsdesign, um automatisch sowohl die Antwortkorrektheit als auch die Quellenzuschreibung zu bewerten. Wir führen eine umfassende Evaluierung von neun avantgardistischen agentenbasierten Suchsystemen sowie menschlicher Leistung durch und ergänzen diese durch eine detaillierte Fehlerrateanalyse, um Erkenntnisse für zukünftige Entwicklungen zu gewinnen. Das beste System, OpenAI Deep Research, kann bereits 50-70% der menschlichen Leistung erreichen, während es nur halb so viel Zeit benötigt, was großes Potenzial zeigt. Zusammenfassend bietet Mind2Web 2 eine strenge Grundlage für die Entwicklung und Bewertung der nächsten Generation agentenbasierter Suchsysteme.

Mind2Web 2: Evaluation der agentialen Suche mit Agent-as-a-Judge | Neueste Forschungsarbeiten | HyperAI