HyperAIHyperAI

Command Palette

Search for a command to run...

Oryx MLLM : Compréhension spatio-temporelle à la demande à une résolution arbitraire

Zuyan Liu Yuhao Dong Ziwei Liu Winston Hu Jiwen Lu Yongming Rao

Résumé

Les données visuelles prennent diverses formes, allant de petites icônes ne comptant que quelques pixels à des vidéos s’étendant sur plusieurs heures. Les modèles linguistiques multimodaux existants standardisent généralement ces entrées visuelles variées à une résolution fixe pour les encodeurs visuels, produisant ainsi un nombre similaire de tokens pour les modèles linguistiques. Cette approche s’avère sous-optimale pour la compréhension multimodale et inefficace lors du traitement d’entrées comprenant des contenus visuels courts ou longs. Pour résoudre ce problème, nous proposons Oryx, une architecture multimodale unifiée pour la compréhension spatio-temporelle d’images, de vidéos et de scènes 3D à plusieurs vues. Oryx offre une solution adaptable permettant de traiter de manière fluide et efficace des entrées visuelles de tailles spatiales et de durées temporelles arbitraires, grâce à deux innovations clés : 1) un modèle pré-entraîné OryxViT capable d’encoder des images à n’importe quelle résolution en représentations visuelles compatibles avec les modèles linguistiques ; 2) un module de compression dynamique qui permet une compression des tokens visuels à raison de 1x à 16x, selon la demande. Ces caractéristiques permettent à Oryx de gérer des contextes visuels extrêmement longs, comme des vidéos, avec une résolution réduite et une forte compression, tout en préservant une précision élevée pour des tâches telles que la compréhension de documents, effectuée à la résolution native sans compression. En complément des améliorations architecturales, une curatation de données renforcée et une formation spécialisée sur la récupération de contextes longs et les données sensibles à l’espace permettent à Oryx d’acquérir des capacités solides dans la compréhension multimodale d’images, de vidéos et de scènes 3D simultanément. Ce travail est open-source et disponible à l’adresse suivante : https://github.com/Oryx-mllm/Oryx.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp