HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten

Abstract

Wir stellen DeepSearchQA vor, einen Benchmark mit 900 Prompt-Aufgaben zur Bewertung von Agenten bei anspruchsvollen, mehrschrittigen Informationsbeschaffungsaufgaben über 17 verschiedene Fachgebiete hinweg. Im Gegensatz zu traditionellen Benchmarks, die entweder auf die Ermittlung einzelner Antworten oder eine breit angelegte Faktualität abzielen, umfasst DeepSearchQA eine Sammlung herausfordernder, von Hand erstellter Aufgaben, die darauf abzielen, die Fähigkeit eines Agents zur Ausführung komplexer Suchpläne zur Erzeugung umfassender Antwortlisten zu bewerten. Diese Neuausrichtung im Design testet explizit drei entscheidende, bisher jedoch unzureichend bewertete Fähigkeiten: 1) die systematische Zusammenführung von fragmentierten Informationen aus unterschiedlichen Quellen, 2) die Entfernung von Duplikaten und die Entitätserkennung zur Sicherstellung von Präzision sowie 3) die Fähigkeit, über die Abbruchkriterien in einem offenen Suchraum zu reflektieren. Jede Aufgabe ist als kausaler Kettenprozess strukturiert, bei dem die Gewinnung von Informationen für einen Schritt von der erfolgreichen Durchführung des vorherigen Schritts abhängt – dies unterstreicht die Notwendigkeit langfristiger Planung und kontextueller Speicherung. Alle Aufgaben basieren auf dem offenen Web und verfügen über objektiv überprüfbare Antwortmengen. Unsere umfassende Evaluation state-of-the-art-Agentenarchitekturen offenbart erhebliche Leistungsgrenzen: Selbst die fortschrittlichsten Modelle haben Schwierigkeiten, hohe Erinnerung (Recall) mit hoher Präzision in Einklang zu bringen. Wir beobachten charakteristische Ausfallmuster, die von vorzeitigen Abbrüchen (Unterabfrage) bis hin zu hedging-ähnlichen Verhaltensweisen reichen, bei denen Agenten absichtlich eine zu große, unsichere Menge an Antworten generieren, um den Recall künstlich zu erhöhen. Diese Ergebnisse verdeutlichen erheblichen Verbesserungsbedarf in der derzeitigen Agentenarchitektur und positionieren DeepSearchQA als essenzielles diagnostisches Werkzeug, um zukünftige Forschung gezielt auf robustere, tiefgreifende Suchfähigkeiten auszurichten.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp