Command Palette
Search for a command to run...
OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

Résumé
L’avancement de l’intelligence artificielle repose sur le développement de la capacité à percevoir à travers plusieurs modalités, tout comme le font les êtres humains en perçant le monde. Nous introduisons OmniVinci, une initiative visant à construire un grand modèle linguistique (LLM) omni-modal fort et open source. Nous avons mené une étude approfondie des choix architecturaux du modèle ainsi que de la curation des données. En ce qui concerne l’architecture du modèle, nous proposons trois innovations majeures : (i) OmniAlignNet, conçu pour renforcer l’alignement entre les embeddings visuels et audio dans un espace latent omni-modal partagé ; (ii) Temporal Embedding Grouping, permettant de capturer l’alignement temporel relatif entre les signaux visuels et audio ; et (iii) Constrained Rotary Time Embedding, qui encode l’information temporelle absolue dans les embeddings omni-modaux. Nous introduisons également un pipeline de curation et de synthèse capable de générer 24 millions de dialogues unimodaux et omni-modaux. Nous constatons que les modalités s’entraînent mutuellement, tant en perception qu’en raisonnement. Notre modèle, OmniVinci, dépasse Qwen2.5-Omni de +19,05 sur DailyOmni (compréhension cross-modale), de +1,7 sur MMAR (audio) et de +3,9 sur Video-MME (vision), tout en utilisant uniquement 0,2 trillion de tokens d’entraînement — soit une réduction de 6 fois par rapport aux 1,2 trillion utilisés par Qwen2.5-Omni. Enfin, nous démontrons les avantages omni-modaux de notre approche dans des applications concrètes, couvrant des domaines tels que la robotique, l’intelligence artificielle en santé et les usines intelligentes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.