HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVinci : Un nouveau modèle d’IA multimodale qui domine l’entendement conjoint d’images, vidéos, audio et texte

OmniVinci est une recherche systématique menée par NVIDIA visant à améliorer l’architecture et la collecte de données pour les modèles linguistiques à grande échelle (LLM) capables de comprendre simultanément plusieurs modalités : images, vidéos, audio et texte. Ce modèle, de 9 milliards de paramètres, atteint des performances de pointe dans la perception conjointe de ces modalités, dépassant Qwen2.5-Omni sur plusieurs benchmarks tout en utilisant 6 fois moins de données d’entraînement (0,2 trillion de tokens contre 1,2 trillion). Trois innovations clés sont au cœur de son architecture : (i) OmniAlignNet, qui renforce l’alignement entre les représentations visuelles et audio dans un espace latent omni-modal partagé ; (ii) Temporal Embedding Grouping, permettant de capturer les relations temporelles relatives entre signaux visuels et audio ; et (iii) Constrained Rotary Time Embedding, qui encode de manière précise les informations temporelles absolues dans les embeddings omni-modaux. Un pipeline original de curation et de synthèse a été développé pour générer 24 millions de conversations à une seule modalité ou omni-modales, favorisant ainsi une interaction synergique entre les modalités tant au niveau de la perception que du raisonnement. Les résultats expérimentaux montrent une amélioration significative : +19,05 sur DailyOmni (compréhension croisée), +1,7 sur MMAR (audio), et +3,9 sur Video-MME (vision). Ces performances sont obtenues avec une efficacité énergétique et computationnelle notable, soulignant l’efficacité de l’approche. Des démonstrations illustrent la capacité du modèle à analyser en profondeur des vidéos complexes. Par exemple, face à une vidéo de Jensen Huang, OmniVinci fournit une narration détaillée du contenu visuel, du discours, des gestes et du contexte, tout en capturant les nuances temporelles et les interactions entre les éléments visuels, auditifs et narratifs. Il peut également interpréter des scènes symboliques, comme un robot recevant un cadeau contenant un message destiné à « son nouveau cerveau », en restituant fidèlement la progression narrative et les émotions implicites. Les applications démontrées couvrent des domaines critiques : robotique, intelligence artificielle médicale et usines intelligentes, où la compréhension omni-modale est essentielle. L’approche d’OmniVinci ouvre la voie à des systèmes capables de raisonner sur des environnements riches et dynamiques, en intégrant naturellement les signaux sensoriels multiples. En tant que modèle de pointe, OmniVinci représente une avancée majeure vers l’intelligence artificielle multimodale, combinant une architecture innovante, des données de haute qualité et une efficacité d’entraînement exceptionnelle. Il s’inscrit dans la tendance vers des LLMs capables de comprendre le monde comme le font les humains, en intégrant les sens, le temps et le contexte. Pour les chercheurs intéressés, il est recommandé de citer ce travail : @article{omnivinci2025, title={OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM}, author={Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov}, journal={arXiv}, year={2025}}

Liens associés

OmniVinci : Un nouveau modèle d’IA multimodale qui domine l’entendement conjoint d’images, vidéos, audio et texte | Articles tendance | HyperAI