HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA dévoile OmniVinci : un modèle d’intelligence multimodale révolutionnaire, 19 points de SOTA et 6 fois plus efficace en apprentissage

NVIDIA a lancé aujourd’hui OmniVinci, un nouveau modèle d’intelligence artificielle à compréhension multimodale, qui bat tous les records actuels sur les benchmarks clés avec une performance supérieure de 19,05 points. Ce résultat impressionnant s’accompagne d’une efficacité exceptionnelle en matière de données : OmniVinci a été entraîné avec seulement un sixième du volume de données utilisé par les modèles les plus performants actuels. Conçu pour créer un système d’IA véritablement universel, capable de comprendre simultanément le visuel, l’audio et le texte, OmniVinci vise à imiter la manière dont l’humain perçoit et interprète le monde à travers plusieurs sens. Pour atteindre cet objectif, l’équipe de recherche de NVIDIA a conçu une architecture innovante reposant sur un espace latent multimodal unifié, permettant une fusion fluide et cohérente des informations provenant de différentes modalités. Cette approche permet au modèle de réaliser des inférences complexes et des raisonnements transmodaux. Sur le benchmark Dailyomni, OmniVinci dépasse Qwen2.5-Omni, notamment avec une avance de 1,7 point sur le test MMAR dédié à l’analyse audio et de 3,9 points sur Video-MME, qui évalue la compréhension vidéo. L’un des aspects les plus remarquables réside dans l’efficacité d’entraînement : OmniVinci a été formé sur seulement 0,2 trillion de tokens, contre 1,2 trillion pour Qwen2.5-Omni, ce qui signifie une efficacité six fois supérieure. Les innovations clés derrière ce succès sont la mécanique d’alignement multimodal, composée de trois éléments : OmniAlignNet, l’encodage par regroupement temporel (TEG) et l’encodage temporel contraint par rotation (CRTE). OmniAlignNet exploite la complémentarité entre les signaux visuels et audio pour renforcer leur apprentissage conjoint. TEG permet de regrouper les informations visuelles et sonores selon des intervalles temporels, préservant ainsi les relations temporelles essentielles. CRTE, quant à lui, résout un défi majeur : l’alignement temporel précis, en permettant au modèle de comprendre non seulement les séquences d’événements, mais aussi leur position absolue dans le temps. L’entraînement s’organise en deux phases : une première phase d’apprentissage modal spécifique, suivie d’une phase de formation conjointe multimodale, permettant une montée en puissance progressive de la compréhension globale. En outre, les chercheurs ont exploité des jeux de données existants de questions-réponses sur vidéo pour améliorer l’apprentissage implicite de la corrélation audio-visuelle. L’annonce d’OmniVinci marque une avancée majeure pour NVIDIA dans le domaine de l’IA multimodale. En ouvrant le modèle au public, l’entreprise donne aux chercheurs et développeurs du monde entier un outil puissant pour repousser les frontières de l’intelligence artificielle. Ce projet devrait accélérer l’émergence de systèmes plus intelligents, capables de comprendre et d’interagir avec le monde réel de manière plus naturelle et efficace, dans des domaines allant de la robotique à l’assistance vocale, en passant par les applications de surveillance et de médias.

Liens associés