vor 6 Monaten

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer

Zusammenfassung

Wir stellen DeepSearchQA vor, einen Benchmark mit 900 Prompt-Aufgaben zur Bewertung von Agenten bei anspruchsvollen, mehrschrittigen Informationsbeschaffungsaufgaben über 17 verschiedene Fachgebiete hinweg. Im Gegensatz zu traditionellen Benchmarks, die entweder auf die Ermittlung einzelner Antworten oder eine breit angelegte Faktualität abzielen, umfasst DeepSearchQA eine Sammlung herausfordernder, von Hand erstellter Aufgaben, die darauf abzielen, die Fähigkeit eines Agents zur Ausführung komplexer Suchpläne zur Erzeugung umfassender Antwortlisten zu bewerten. Diese Neuausrichtung im Design testet explizit drei entscheidende, bisher jedoch unzureichend bewertete Fähigkeiten: 1) die systematische Zusammenführung von fragmentierten Informationen aus unterschiedlichen Quellen, 2) die Entfernung von Duplikaten und die Entitätserkennung zur Sicherstellung von Präzision sowie 3) die Fähigkeit, über die Abbruchkriterien in einem offenen Suchraum zu reflektieren. Jede Aufgabe ist als kausaler Kettenprozess strukturiert, bei dem die Gewinnung von Informationen für einen Schritt von der erfolgreichen Durchführung des vorherigen Schritts abhängt – dies unterstreicht die Notwendigkeit langfristiger Planung und kontextueller Speicherung. Alle Aufgaben basieren auf dem offenen Web und verfügen über objektiv überprüfbare Antwortmengen. Unsere umfassende Evaluation state-of-the-art-Agentenarchitekturen offenbart erhebliche Leistungsgrenzen: Selbst die fortschrittlichsten Modelle haben Schwierigkeiten, hohe Erinnerung (Recall) mit hoher Präzision in Einklang zu bringen. Wir beobachten charakteristische Ausfallmuster, die von vorzeitigen Abbrüchen (Unterabfrage) bis hin zu hedging-ähnlichen Verhaltensweisen reichen, bei denen Agenten absichtlich eine zu große, unsichere Menge an Antworten generieren, um den Recall künstlich zu erhöhen. Diese Ergebnisse verdeutlichen erheblichen Verbesserungsbedarf in der derzeitigen Agentenarchitektur und positionieren DeepSearchQA als essenzielles diagnostisches Werkzeug, um zukünftige Forschung gezielt auf robustere, tiefgreifende Suchfähigkeiten auszurichten.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 6 Monaten

Agent

Benchmarks

Reasoning

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 6 Monaten

Agent

Benchmarks

Reasoning

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten | Paper | HyperAI

Command Palette

DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSearchQA: Brücke der Umfassendheit für tiefe Forschungsagenten

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer

Nikita Gupta Riju Chatterjee Lukas Haas Connie Tao Andrew Wang Chang Liu Hidekazu Oiwa Elena Gribovskaya Jan Ackermann John Blitzer