NVIDIA lance NeMo Retriever pour la recherche d'agents générique
L'équipe de NVIDIA NeMo Retriever annonce que son dernier pipeline d'indexation intelligent occupe la première place du classement ViDoRe v3 et se classe deuxième sur le benchmark complexe BRIGHT dédié au raisonnement. Ce résultat démontre les avantages significatifs en termes d'universalité et d'adaptabilité de cette solution. Si l'indexation traditionnelle repose principalement sur la similarité sémantique, elle montre souvent ses limites face à des documents complexes et aux tâches de raisonnement approfondi. Pour franchir ce goulot d'étranglement, l'équipe NeMo a conçu un pipeline d'agent basé sur une architecture ReACT. Grâce à une boucle d'interaction dynamique entre un grand modèle de langage (LLM) et un moteur de recherche, ce système planifie et exécute itérativement des recherches tout en évaluant les résultats sans dépendre d'une requête unique. Lorsqu'il rencontre des limitations étape par étape, le bascule automatiquement vers un mécanisme de fusion de rangs réciproques (RRF) comme filet de sécurité pour garantir l'achèvement de la tâche. Sur le plan de l'implémentation technique, l'équipe a abandonné l'architecture serveur classique du protocole de contexte de modèle (MCP) pour adopter un indexeur singleton thread-safe. Cette amélioration élimine les délais de transmission réseau et la complexité de configuration des processus, augmentant considérablement l'utilisation des GPUs et le débit expérimental, permettant ainsi une exécution efficace de l'indexation agent haute performance lors de tests de référence à grande échelle. Les données de test révèlent une capacité généralisation exceptionnelle. Dans les tâches ViDoRe v3 axées sur la mise en page visuelle complexe, NeMo dépasse ses concurrents avec un indice NDCG@10 de 69,22 points, tandis que ces derniers voient leurs performances chuter nettement dans d'autres domaines du même jeu de données. Bien que le temps de traitement par requête (environ 136 secondes) et le coût de l'indexation agent soient supérieurs à ceux de l'indexation dense traditionnelle, leur performance reste irremplaçable pour les tâches impliquant une logique complexe et une compréhension visuelle. NVIDIA indique que les futures priorités d'optimisation porteront sur l'utilisation de techniques de distillation pour transférer des modes de raisonnement complexes vers des modèles open-source plus petits, afin de réduire les latences et les coûts. Actuellement, ce module offre une flexibilité de configuration : les développeurs peuvent combiner différents grands modèles de langage avec des modèles d'inclusion commerciaux de NVIDIA pour créer des flux de travail d'indexation hautement universels adaptés aux besoins des entreprises.
