HyperAIHyperAI
il y a 9 jours

Oryx MLLM : Compréhension spatio-temporelle à la demande à une résolution arbitraire

Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
Oryx MLLM : Compréhension spatio-temporelle à la demande à une résolution arbitraire
Résumé

Les données visuelles prennent diverses formes, allant de petites icônes ne comptant que quelques pixels à des vidéos s’étendant sur plusieurs heures. Les modèles linguistiques multimodaux existants standardisent généralement ces entrées visuelles variées à une résolution fixe pour les encodeurs visuels, produisant ainsi un nombre similaire de tokens pour les modèles linguistiques. Cette approche s’avère sous-optimale pour la compréhension multimodale et inefficace lors du traitement d’entrées comprenant des contenus visuels courts ou longs. Pour résoudre ce problème, nous proposons Oryx, une architecture multimodale unifiée pour la compréhension spatio-temporelle d’images, de vidéos et de scènes 3D à plusieurs vues. Oryx offre une solution adaptable permettant de traiter de manière fluide et efficace des entrées visuelles de tailles spatiales et de durées temporelles arbitraires, grâce à deux innovations clés : 1) un modèle pré-entraîné OryxViT capable d’encoder des images à n’importe quelle résolution en représentations visuelles compatibles avec les modèles linguistiques ; 2) un module de compression dynamique qui permet une compression des tokens visuels à raison de 1x à 16x, selon la demande. Ces caractéristiques permettent à Oryx de gérer des contextes visuels extrêmement longs, comme des vidéos, avec une résolution réduite et une forte compression, tout en préservant une précision élevée pour des tâches telles que la compréhension de documents, effectuée à la résolution native sans compression. En complément des améliorations architecturales, une curatation de données renforcée et une formation spécialisée sur la récupération de contextes longs et les données sensibles à l’espace permettent à Oryx d’acquérir des capacités solides dans la compréhension multimodale d’images, de vidéos et de scènes 3D simultanément. Ce travail est open-source et disponible à l’adresse suivante : https://github.com/Oryx-mllm/Oryx.