HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois
LLM
Agent
Benchmarks

NVIDIA AI-Q atteint la 1ère place des benchmarks DeepResearch

L'agent de recherche approfondie NVIDIA AI-Q a atteint la première place des deux principaux benchmarks du domaine, DeepResearch Bench I et DeepResearch Bench II, avec respectivement des scores de 55,95 et 54,50. Cette réalisation marque une avancée significative vers des agents de recherche ouverts, portables et accessibles aux développeurs. Elle démontre qu'une architecture configurable basée sur des modèles et des outils disponibles publiquement permet d'atteindre l'excellence technique. La force de l'approche AI-Q réside dans son architecture totalement ouverte et modulaire. Elle permet aux entreprises de posséder, d'inspecter et de personnaliser le système selon leurs besoins spécifiques. Au cœur de cette solution se trouve un flux de travail de recherche en profondeur, intégré à un ensemble plus large incluant le routage des intentions et la recherche superficielle. L'architecture repose sur trois composants principaux : un planificateur qui cartographie le paysage de l'information et conçoit un plan de recherche étayé par des preuves, un chercheur qui active des agents spécialistes en parallèle pour rassembler et synthétiser les données, et un orchestrateur qui coordonne l'ensemble de la boucle de recherche. Chacun de ces éléments peut être alimenté par un modèle de langage (LLM) différent. Les performances d'AI-Q sont soutenues par une pile technologique cohérente. Le système utilise en priorité les modèles NVIDIA Nemotron 3 Super, spécifiquement fine-tunés sur environ 67 000 trajectoires d'apprentissage par renforcement supervisé, générées à partir de questions de recherche réelles et filtrées par des principes stricts. Cette adaptation permet au modèle de maîtriser la reasoning multi-étape et l'utilisation d'outils. Pour garantir la fiabilité sur des tâches complexes nécessitant de nombreuses étapes, NVIDIA a développé un middleware personnalisé. Celui-ci gère les défaillances potentielles et améliore la robustesse des agents sur des horizons temporels longs. Le système intègre également des mécanismes optionnels pour maximiser la qualité des rapports. Un module ensembliste fait fonctionner plusieurs pipelines de recherche en parallèle, permettant à un LLM d'intégrer les informations uniques de chaque source pour une couverture plus large. Une étape finale de raffinement post-mortem peut être activée pour reformuler le rapport, quantifier les affirmations vagues et renforcer le raisonnement causal. L'utilisation d'outils de recherche web via Tavily et de recherche académique via Serper garantit que les réponses sont systématiquement étayées par des citations précises. Une caractéristique clé de cette architecture est sa flexibilité de configuration. Tous les composants, y compris les modèles et les graphes d'agents, peuvent être ajustés via des fichiers YAML, offrant un contrôle total sur le déploiement. La conception en agents multiples permet également de gérer efficacement les longs contextes : chaque sous-agent traite son propre contexte et ne retourne que sa synthèse, évitant ainsi de submerger l'orchestrateur de données brutes et bruyantes. En atteignant la première place sur deux benchmarks complémentaires, NVIDIA AI-Q prouve que sa méthodologie produit à la fois des rapports bien structurés et étayés, et une capacité de raisonnement et de récupération d'information robuste. Ce succès confirme la viabilité d'une approche où la transparence, la reproductibilité et le contrôle ne sont pas compromis par la performance. Cette réalisation ouvre la voie à une nouvelle ère de recherche automatisée d'entreprise, accessible et adaptable. Les détails techniques et les mises à jour sur ces avancées seront présentés lors de la conférence NVIDIA GTC, prévue à San Jose dans la semaine du 16 mars 2026.

Liens associés

NVIDIA AI-Q atteint la 1ère place des benchmarks DeepResearch | Articles tendance | HyperAI