HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA dévoile VSS 2.4 : une avancée majeure pour l’analyse vidéo intelligente avec IA générative et raisonnement physique

La dernière version du NVIDIA AI Blueprint pour la recherche et la synthèse vidéo (VSS 2.4) marque une avancée significative dans l’intégration des pipelines de vision par ordinateur avec l’intelligence générative et le raisonnement. Cette évolution permet aux systèmes vidéo de passer d’une analyse basique (comptage d’objets) à une compréhension contextuelle en temps réel, offrant des insights actionnables dans des domaines comme la fabrication, les entrepôts logistiques, le commerce de détail et les réseaux de transport. VSS 2.4 intègre désormais NVIDIA Cosmos Reason, un modèle vision-langage (VLM) à 7 milliards de paramètres, spécialisé dans le raisonnement physique. Ce modèle permet aux agents IA de comprendre le monde réel grâce à des connaissances préalables, une compréhension des lois physiques et du bon sens. Grâce à une intégration native, Cosmos Reason est couplé directement au pipeline d’ingestion vidéo, permettant des traitements par lots optimisés et des gains de performance non atteignables via des interfaces REST. Son faible poids (7B) le rend adapté aussi bien au cloud qu’au bord (edge), et il peut être fine-tuné sur des données propriétaires. Une autre avancée majeure concerne l’amélioration de la recherche par questions-réponses (Q&A). Le système utilise désormais une base de connaissances (knowledge graph) générée automatiquement à partir des descriptions enrichies produites par Cosmos Reason. Une étape de post-traitement élimine les doublons et fusionne les entités communes (ex. : une même voiture traversant plusieurs caméras), ce qui améliore considérablement la cohérence et la précision des réponses. En outre, une fonctionnalité de raisonnement agentic permet à un modèle linguistique (LLM) de décomposer intelligemment les questions, d’interroger dynamiquement le graphe, de re-saisir des trames vidéo et d’itérer si nécessaire, garantissant une réponse plus fiable. Le support des bases de données graphes a été élargi à ArangoDB, qui bénéficie désormais d’accélération CUDA via cuGraph, accélérant ainsi la génération du graphe. Cette évolution est particulièrement utile pour les déploiements multi-GPU nécessitant des analyses complexes à grande échelle. Pour les environnements à faible latence et les déploiements edge, la fonction VSS Event Reviewer offre une solution efficace. Elle permet d’ajouter de l’intelligence générative uniquement aux segments vidéo d’intérêt détectés par un pipeline CV existant (ex. : collision potentielle, mouvement anormal). En appelant des endpoints spécifiques, VSS analyse ces courts clips pour fournir des alertes contextuelles et des réponses à des questions complémentaires, tout en réduisant drastiquement la consommation de calcul. Enfin, VSS 2.4 étend sa compatibilité aux plateformes NVIDIA Blackwell, notamment Jetson Thor (edge), RTX Pro 6000 (workstation et serveur), et bientôt DGX Spark. Cette évolution permet une flexibilité accrue dans les déploiements, du bord au cloud. Pour démarrer rapidement, NVIDIA propose des launchables Brev avec déploiement un clic, des notebooks Jupyter et un environnement Web UI. Le code source et les ressources techniques sont disponibles sur GitHub. Pour les déploiements en production, des guides sont fournis pour les fournisseurs de cloud (CSP). En résumé, VSS 2.4 transforme les systèmes vidéo en agents intelligents capables de raisonner, de comprendre le contexte, de croiser des flux multiples et d’agir de manière proactive — une avancée clé vers l’IA visuelle autonome et agentic.

Liens associés

NVIDIA dévoile VSS 2.4 : une avancée majeure pour l’analyse vidéo intelligente avec IA générative et raisonnement physique | Articles tendance | HyperAI