Command Palette
Search for a command to run...
DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten
DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten
Abstract
Wir stellen DeepSearchQA vor, einen Benchmark mit 900 Prompt-Aufgaben zur Bewertung von Agenten bei anspruchsvollen, mehrschrittigen Informationsbeschaffungsaufgaben über 17 verschiedene Fachgebiete hinweg. Im Gegensatz zu traditionellen Benchmarks, die entweder auf die Ermittlung einzelner Antworten oder eine breit angelegte Faktualität abzielen, umfasst DeepSearchQA eine Sammlung herausfordernder, von Hand erstellter Aufgaben, die darauf abzielen, die Fähigkeit eines Agents zur Ausführung komplexer Suchpläne zur Erzeugung umfassender Antwortlisten zu bewerten. Diese Neuausrichtung im Design testet explizit drei entscheidende, bisher jedoch unzureichend bewertete Fähigkeiten: 1) die systematische Zusammenführung von fragmentierten Informationen aus unterschiedlichen Quellen, 2) die Entfernung von Duplikaten und die Entitätserkennung zur Sicherstellung von Präzision sowie 3) die Fähigkeit, über die Abbruchkriterien in einem offenen Suchraum zu reflektieren. Jede Aufgabe ist als kausaler Kettenprozess strukturiert, bei dem die Gewinnung von Informationen für einen Schritt von der erfolgreichen Durchführung des vorherigen Schritts abhängt – dies unterstreicht die Notwendigkeit langfristiger Planung und kontextueller Speicherung. Alle Aufgaben basieren auf dem offenen Web und verfügen über objektiv überprüfbare Antwortmengen. Unsere umfassende Evaluation state-of-the-art-Agentenarchitekturen offenbart erhebliche Leistungsgrenzen: Selbst die fortschrittlichsten Modelle haben Schwierigkeiten, hohe Erinnerung (Recall) mit hoher Präzision in Einklang zu bringen. Wir beobachten charakteristische Ausfallmuster, die von vorzeitigen Abbrüchen (Unterabfrage) bis hin zu hedging-ähnlichen Verhaltensweisen reichen, bei denen Agenten absichtlich eine zu große, unsichere Menge an Antworten generieren, um den Recall künstlich zu erhöhen. Diese Ergebnisse verdeutlichen erheblichen Verbesserungsbedarf in der derzeitigen Agentenarchitektur und positionieren DeepSearchQA als essenzielles diagnostisches Werkzeug, um zukünftige Forschung gezielt auf robustere, tiefgreifende Suchfähigkeiten auszurichten.