HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA stellt den NeMo Retriever vor für universelle Agentenabfrage

Das Team von NVIDIA NeMo Retriever hat angekündigt, dass sein kürzlich entwickelter intelligenter Retrieval-Pipeline an der Spitze des ViDoRv-v3-Leaderboards rangiert und auf dem anspruchsvollen BRIGHT-Reasoning-Leaderboard den zweiten Platz belegt. Diese Leistung unterstreicht die erheblichen Vorteile des Ansatzes hinsichtlich Allgemeinheit und Anpassungsfähigkeit. Traditionelle Retrieval-Ansätze stützen sich primär auf semantische Ähnlichkeit, stoßen jedoch bei der Verarbeitung komplexer Dokumente und tiefergehender Schlussfolgerungen oft an ihre Grenzen. Um diesen Engpass zu überwinden, entwickelte das NeMo-Team eine Agent-basierte Retrieval-Pipeline, die auf einer ReACT-Architektur beruht. Durch einen dynamischen Interaktionszyklus zwischen einem großen Sprachmodell und dem Retriever plant dieser autonom, durchsucht iterativ und bewertet Ergebnisse, statt sich auf einzelne Abfragen zu verlassen. Stößt ein Agent auf Schrittbeschränkungen, schaltet das System automatisch in den Mechanismus zur gegenseitigen Rängefusion (Reciprocal Rank Fusion – RRF) als Sicherheitsabsicherung um, um die Aufgabenerfüllung sicherzustellen. In Bezug auf die technische Umsetzung verzichtete das Team auf herkömmliche Serverarchitekturen für das Model Context Protocol (MCP) und setzte stattdessen auf einen thread-sicheren Singleton-Retriever. Diese Verbesserung eliminiert Latenzen beim Netzwerkdurchsatz sowie Komplexitäten bei der Prozesskonfiguration, steigert die GPU-Nutzung und den experimentellen Durchsatz erheblich und ermöglicht es leistungsstarken Agent-Retrievals, effizient in großangelegten Benchmark-Tests zu laufen. Testdaten belegen eine außerordentliche Generalisierungsfähigkeit der Pipeline. Bei der Aufgabe ViDoRe v3, die komplexe visuelle Layouts fokussiert, erreichte NeMo mit einem NDCG@10-Wert von 69,22 Punkten Vorsprung vor den Mitbewerbern, während deren Leistungen in anderen Bereichen desselben Datensatzes deutlich nachließen. Zwar liegen sowohl die Verarbeitungszeit pro einzelner Anfrage (ca. 136 Sekunden) als auch die Kosten für den Agent-Retrieval höher als bei traditionellen dichten Suchverfahren, doch ist seine Performance bei Aufgaben mit komplexer Logik und visuellem Verständnis unersetzlich. NVIDIA weist darauf hin, dass zukünftige Optimierungsbestrebungen darin bestehen werden, mittels Distillationstechniken komplexe Muster des Reasonings auf kleinere Open-Source-Modelle zu übertragen, um Latenzzeiten und Kosten zu senken. Derzeit unterstützt das Modul flexible Konfigurationsmöglichkeiten; Entwickler können verschiedene große Sprachmodelle mit geschäftsspezifischen Embedding-Modellen von NVIDIA kombinieren, um hochgradig allgemeine Retrieval-Workflows zu erstellen, die den Anforderungen von Unternehmen gerecht werden.

Verwandte Links

NVIDIA stellt den NeMo Retriever vor für universelle Agentenabfrage | Aktuelle Beiträge | HyperAI