HyperAIHyperAI
vor 12 Tagen

WideSearch: Benchmarking agenter breiter Informationsbeschaffung

Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
WideSearch: Benchmarking agenter breiter Informationsbeschaffung
Abstract

Von der professionellen Forschung bis hin zur alltäglichen Planung sind zahlreiche Aufgaben durch umfangreiche Informationsbeschaffung gebunden, die eher repetitiv als kognitiv anspruchsvoll ist. Mit der rasanten Entwicklung von großen Sprachmodellen (Large Language Models, LLMs) bieten automatisierte Suchagenten, die auf LLMs basieren, eine vielversprechende Lösung, um Menschen von dieser mühsamen Tätigkeit zu entlasten. Allerdings bleibt die Fähigkeit dieser Agenten, solche „weitreichenden Kontext“-Aufgaben zuverlässig und vollständig zu bewältigen, weitgehend unerprobt, da bisher keine geeigneten Benchmarks zur Verfügung stehen. Um diese Lücke zu schließen, stellen wir WideSearch vor – einen neuen Benchmark, der speziell dafür entwickelt wurde, die Zuverlässigkeit von Agenten bei solchen großskaligen Informationsbeschaffungsaufgaben zu evaluieren. Der Benchmark umfasst 200 manuell kuratierte Fragen (100 auf Englisch, 100 auf Chinesisch) aus über 15 unterschiedlichen Domänen, die auf echten Nutzeranfragen basieren. Jede Aufgabe erfordert von den Agenten die Sammlung großer Mengen atomarer Informationen, die jeweils objektiv überprüfbar sind, sowie deren strukturierte Anordnung in einer gut organisierten Ausgabe. Ein strenger fünfstufiger Qualitätskontrollprozess gewährleistet die Schwierigkeit, Vollständigkeit und Überprüfbarkeit des Datensatzes. Wir evaluieren über zehn state-of-the-art agente Suchsysteme, darunter Einzelagenten, Multi-Agenten-Frameworks sowie end-to-end kommerzielle Systeme. Die meisten Systeme erreichen eine Gesamterfolgsquote nahe bei 0 %, wobei der beste Performer lediglich 5 % erreicht. Bei ausreichender Zeit und durch Kreuzvalidierung mehrerer menschlicher Tester kann jedoch eine Erfolgsquote von nahezu 100 % erzielt werden. Diese Ergebnisse zeigen deutlich, dass aktuelle Suchagenten erhebliche Defizite bei der großskaligen Informationsbeschaffung aufweisen und unterstreichen dringend erforderliche Forschungs- und Entwicklungsrichtungen für zukünftige agente Suchsysteme. Unser Datensatz, die Evaluationspipeline sowie die Benchmark-Ergebnisse sind öffentlich unter https://widesearch-seed.github.io/ verfügbar.