il y a 2 mois

Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution

Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin

Voir les détails de l'article

Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution

Résumé

Nous présentons la série Qwen2-VL, une amélioration avancée des modèles Qwen-VL précédents qui redéfinit l'approche conventionnelle de résolution prédéterminée dans le traitement visuel. Qwen2-VL introduit le mécanisme de Résolution Dynamique Naïve, permettant au modèle de traiter dynamiquement des images de différentes résolutions en différents nombres de jetons visuels. Cette approche permet au modèle de générer des représentations visuelles plus efficaces et précises, s'alignant étroitement avec les processus perceptifs humains. Le modèle intègre également l'Embedding Positionnel Multimodal Rotatif (M-RoPE), facilitant la fusion efficace des informations positionnelles entre le texte, les images et les vidéos. Nous utilisons un paradigme unifié pour le traitement des images et des vidéos, renforçant ainsi les capacités de perception visuelle du modèle. Pour explorer le potentiel des grands modèles multimodaux, Qwen2-VL examine les lois d'échelle pour les grands modèles vision-langage (LVLMs). En augmentant à la fois la taille du modèle - avec des versions de 2 milliards, 8 milliards et 72 milliards de paramètres - et la quantité de données d'entraînement, la série Qwen2-VL atteint une performance hautement compétitive. Notamment, le modèle Qwen2-VL-72B obtient des résultats comparables à ceux des modèles leaders tels que GPT-4o et Claude3.5-Sonnet sur diverses benchmarks multimodales, surpassant d'autres modèles généralistes. Le code est disponible à l'adresse suivante : https://github.com/QwenLM/Qwen2-VL.