il y a 15 jours

OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

Voir les détails de l'article Voir le code

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian

OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

Résumé

L’avancement de l’intelligence artificielle repose sur le développement de la capacité à percevoir à travers plusieurs modalités, tout comme le font les êtres humains en perçant le monde. Nous introduisons OmniVinci, une initiative visant à construire un grand modèle linguistique (LLM) omni-modal fort et open source. Nous avons mené une étude approfondie des choix architecturaux du modèle ainsi que de la curation des données. En ce qui concerne l’architecture du modèle, nous proposons trois innovations majeures : (i) OmniAlignNet, conçu pour renforcer l’alignement entre les embeddings visuels et audio dans un espace latent omni-modal partagé ; (ii) Temporal Embedding Grouping, permettant de capturer l’alignement temporel relatif entre les signaux visuels et audio ; et (iii) Constrained Rotary Time Embedding, qui encode l’information temporelle absolue dans les embeddings omni-modaux. Nous introduisons également un pipeline de curation et de synthèse capable de générer 24 millions de dialogues unimodaux et omni-modaux. Nous constatons que les modalités s’entraînent mutuellement, tant en perception qu’en raisonnement. Notre modèle, OmniVinci, dépasse Qwen2.5-Omni de +19,05 sur DailyOmni (compréhension cross-modale), de +1,7 sur MMAR (audio) et de +3,9 sur Video-MME (vision), tout en utilisant uniquement 0,2 trillion de tokens d’entraînement — soit une réduction de 6 fois par rapport aux 1,2 trillion utilisés par Qwen2.5-Omni. Enfin, nous démontrons les avantages omni-modaux de notre approche dans des applications concrètes, couvrant des domaines tels que la robotique, l’intelligence artificielle en santé et les usines intelligentes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian22 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian