HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours
NVIDIA
Multimodal

NVIDIA open-source XR AI pour agents IA en réalité étendue

NVIDIA met en bêta publique son framework XR AI, une solution open source conçue pour combler le fossé infrastructurel rencontré par les développeurs d’expériences d’intelligence artificielle sur lunettes de réalité augmentée et casques étendus (XR). Si le matériel est désormais mature, l’intégration de flux caméra et microphone en direct, de modèles multimodaux, de données d’entreprise et d’outils métier reste complexe. XR AI répond à ce besoin en offrant une architecture modulaire et réutilisable reliant les dispositifs XR aux services IA accélérés par GPU, déployables dans le cloud, les centres de données ou en périphérie. Le système permet de créer des agents intelligents capables d’analyser l’environnement visuel de l’utilisateur, de comprendre ses commandes vocales ou tapées, d’interroger des bases de données métier et de fournir des réponses contextualisées en temps réel, le tout au sein de la même session XR. Cette approche est particulièrement adaptée aux environnements où les mains sont occupées, comme la maintenance industrielle, la télémédecine, les formations techniques ou l’intervention sur le terrain. Des projets pilotes avec Siemens en milieu manufacturier, ainsi qu’avec les laboratoires de la Stanford Medical School et de Princeton, illustrent déjà son utilité pour l’assistance opérationnelle, le diagnostic assisté et la traçabilité des procédures. L’architecture de XR AI sépare volontairement le transport multimédia, les services de modélisation, l’accès aux outils et l’orchestration des agents pour garantir flexibilité et performance. Le noyau s’appuie sur plusieurs composants NVIDIA : le hub multimédia XR centralise les flux ; les modèles Cosmos assurent l’ancrage visuel ; les modèles Nemotron gèrent la compréhension linguistique, le raisonnement et l’appel d’outils ; le Model Context Protocol (MCP) sécurise l’intégration avec les systèmes d’entreprise et les bases de connaissances ; le NeMo Agent Toolkit orchestre les workflows multi-agents ; et CloudXR ajoute la restitution de contenus 3D spatialisés lorsque nécessaire. Cette conception permet d’interchanger facilement des clients, des modèles ou des serveurs sans reconstruire l’application, tout en supportant nativement les scénarios multi-utilisateurs et multi-agents. Disponible en bêta publique, XR AI est accompagné d’un dépôt GitHub contenant des exemples fonctionnels, des serveurs de modèles, des clients web et des intégrations MCP. Le déploiement s’effectue en étapes progressives : initialisation des services IA, exécution d’un premier agent sensible aux capteurs, connexion des données métier via MCP, ajout de l’orchestration avancée et, si besoin, intégration du rendu spatial via CloudXR. Les développeurs peuvent ainsi commencer par une interaction vocale et visuelle basique, puis enrichir progressivement les capacités de l’agent avec des pipelines de génération enrichie par récupération (RAG), des jumeaux numériques ou des outils de recherche vidéo. En standardisant la connexion entre le matériel XR et l’IA GPU, NVIDIA positionne XR AI comme une fondation commune pour l’avenir du calcul contextuel portable. La bêta actuelle vise à recueillir des retours industriels tout en accélérant le développement d’applications opérationnelles sûres, évolutives et véritablement intégrées aux workflows professionnels.

Liens associés