HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten
LLM
Agent
Benchmarks

NVIDIA AI-Q wird DeepResearch Bench I und II #1

Das KI-Agenten-Forschungsprojekt NVIDIA AI-Q hat mit einem einzigen konfigurierbaren System sowohl den DeepResearch Bench als auch den DeepResearch Bench II auf Platz eins gebracht. Mit Punktzahlen von 55,95 bzw. 54,50 belegt NVIDIA damit die Spitzenposition in den beiden wichtigsten Benchmarks für die Bewertung von Deep-Research-Agenten. Dieser Erfolg markiert einen wichtigen Meilenstein für offene und portierbare Forschungs-KI, da er zeigt, dass Entwickler zugängliche Modelle und Werkzeugketten für hochmoderne agentenbasierte Forschung einsetzen können. AI-Q zeichnet sich durch eine vollständig offene und modulare Architektur aus, die es Unternehmen ermöglicht, das System zu besitzen, zu prüfen, anzupassen und an spezifische Anwendungsfälle anzupassen. Im Zentrum steht ein mehrstufiger Forschungsprozess mit den Komponenten Orchester, Planer und Forscher. Dieser Workflow wird durch das NVIDIA NeMo Agent Toolkit und fine-getunete NVIDIA Nemotron 3 Super-Modelle unterstützt. Optional können ein Ensemble-Modus und ein Berichts-Refiner hinzugefügt werden, um die Qualität und Vollständigkeit der Berichte weiter zu steigern. Die Architektur basiert auf drei Hauptkomponenten: Ein Orchester, das den gesamten Forschungsprozess koordiniert, ein Planer, der die Informationslandschaft kartiert und einen evidenzbasierten Forschungsplan entwirft, sowie ein Forscher, der parallele Spezialagenten einsetzt, um Evidenz aus verschiedenen analytischen Perspektiven zu sammeln und zu synthetisieren. Jede Komponente kann von einem anderen Large Language Model (LLM) angetrieben werden. Der Planer arbeitet dabei in zwei Phasen: Zuerst kartiert ein Scout-Agent die Informationslandschaft durch breite Recherchen, anschließend entwirft ein Architekt-Agent den detaillierten Forschungsplan, inklusive Berichtsstruktur und gezielter Suchanfragen. Diese evidenzbasierte Planung ist entscheidend für verlässliche Ergebnisse, da der Planer auf Basis tatsächlicher Funde entscheidet, wo tiefgehend recherchiert werden muss. Ein wesentlicher Erfolgsfaktor war die Anpassung des NVIDIA Nemotron-3-Super-120B-A12B-Modells. Durch ein Fein-Tuning auf rund 67.000 SFT-Trajektorien aus echten Such- und Synthesedaten ist das Modell für komplexe mehrstufige Reasoning-Aufgaben, Werkzeugnutzung und zitationsbasierte Berichte optimiert. Um die Zuverlässigkeit bei langen, mehrstufigen Interaktionen zu gewährleisten, entwickelte das Team eine Middleware, die spezifische Fehlermuster in Agenten-Traces abfängt und kompensiert. Zusätzlich bietet das Ensemble-Feature die Möglichkeit, mehrere Forschungs-Pipelines parallel auszuführen und deren Ergebnisse zu einer umfassenden Antwort zu verschmelzen. Eine optionale Nachbearbeitung sorgt dann für eine polierte, redaktionell überarbeitete Fassung des Endberichts. Das System zeichnet sich zudem durch seine Konfigurierbarkeit aus: LLMs, Werkzeuge und Agenten-Graphen lassen sich über YAML-Dateien anpassen. Für die Benchmark-Ergebnisse trieb das fine-getunete Nemotron 3 den Forscher an, der viermal so viele Token verarbeitete wie Planer und Orchester zusammen. Die Ergebnisse beweisen, dass State-of-the-Art-Leistungen erzielt werden können, ohne auf Transparenz, Überprüfbarkeit oder Kontrolle zu verzichten. NVIDIA plant, diese Erkenntnisse und die offene Architektur auf der nächsten GTC-Konferenz in San Jose im März 2026 detailliert vorzustellen.

Verwandte Links

NVIDIA AI-Q wird DeepResearch Bench I und II #1 | Aktuelle Beiträge | HyperAI