HyperAIHyperAI
il y a 4 mois

VideoLLaMA 3 : Modèles fondamentaux multimodaux à la frontière pour la compréhension des images et des vidéos

Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
VideoLLaMA 3 : Modèles fondamentaux multimodaux à la frontière pour la compréhension des images et des vidéos
Résumé

Dans cet article, nous proposons VideoLLaMA3, un modèle fondamental multimodal plus avancé pour la compréhension des images et des vidéos. La philosophie de conception centrale de VideoLLaMA3 est axée sur la vision. Le terme « axé sur la vision » a deux significations : le paradigme d'entraînement axé sur la vision et la conception du cadre axé sur la vision. L'idée clé de notre paradigme d'entraînement axé sur la vision est que les données image-texte de haute qualité sont essentielles pour la compréhension des images et des vidéos. Au lieu de préparer de vastes ensembles de données vidéo-texte, nous nous concentrons sur la construction d'ensembles de données image-texte à grande échelle et de haute qualité. VideoLLaMA3 comporte quatre étapes d'entraînement : 1) l'étape d'alignement axée sur la vision, qui réchauffe l'encodeur visuel et le projecteur ; 2) l'étape d'entraînement préalable vision-langage, qui ajuste conjointement l'encodeur visuel, le projecteur et le LLM avec des données image-texte à grande échelle couvrant plusieurs types (y compris des images de scènes, des documents, des graphiques) ainsi que des données textuelles uniquement ; 3) l'étape de réglage fin multi-tâches, qui intègre les données SFT image-texte pour les tâches en aval et les données vidéo-texte pour établir une base pour la compréhension des vidéos ; 4) l'étape de réglage fin axée sur les vidéos, qui améliore davantage la capacité du modèle à comprendre les vidéos. En ce qui concerne la conception du cadre, pour mieux capturer les détails fins dans les images, l'encodeur visuel pré-entraîné est adapté pour encoder des images de tailles variables en jetons visuels avec un nombre correspondant, plutôt qu'un nombre fixe de jetons. Pour les entrées vidéo, nous réduisons le nombre de jetons visuels en fonction de leur similarité afin que la représentation des vidéos soit plus précise et compacte. Grâce aux conceptions axées sur la vision, VideoLLaMA3 obtient des performances convaincantes dans les benchmarks de compréhension des images et des vidéos.