HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 15 jours

OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM

Résumé

L’avancement de l’intelligence artificielle repose sur le développement de la capacité à percevoir à travers plusieurs modalités, tout comme le font les êtres humains en perçant le monde. Nous introduisons OmniVinci, une initiative visant à construire un grand modèle linguistique (LLM) omni-modal fort et open source. Nous avons mené une étude approfondie des choix architecturaux du modèle ainsi que de la curation des données. En ce qui concerne l’architecture du modèle, nous proposons trois innovations majeures : (i) OmniAlignNet, conçu pour renforcer l’alignement entre les embeddings visuels et audio dans un espace latent omni-modal partagé ; (ii) Temporal Embedding Grouping, permettant de capturer l’alignement temporel relatif entre les signaux visuels et audio ; et (iii) Constrained Rotary Time Embedding, qui encode l’information temporelle absolue dans les embeddings omni-modaux. Nous introduisons également un pipeline de curation et de synthèse capable de générer 24 millions de dialogues unimodaux et omni-modaux. Nous constatons que les modalités s’entraînent mutuellement, tant en perception qu’en raisonnement. Notre modèle, OmniVinci, dépasse Qwen2.5-Omni de +19,05 sur DailyOmni (compréhension cross-modale), de +1,7 sur MMAR (audio) et de +3,9 sur Video-MME (vision), tout en utilisant uniquement 0,2 trillion de tokens d’entraînement — soit une réduction de 6 fois par rapport aux 1,2 trillion utilisés par Qwen2.5-Omni. Enfin, nous démontrons les avantages omni-modaux de notre approche dans des applications concrètes, couvrant des domaines tels que la robotique, l’intelligence artificielle en santé et les usines intelligentes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniVinci : Amélioration de l'architecture et des données pour la compréhension omni-modale par les LLM | Articles de recherche | HyperAI