Command Palette
Search for a command to run...
Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution
Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution
Résumé
Nous présentons la série Qwen2-VL, une évolution avancée des modèles Qwen-VL précédents, qui repense l’approche conventionnelle à résolution prédéfinie en traitement visuel. Le modèle Qwen2-VL introduit un mécanisme de résolution dynamique naïve, permettant au modèle de traiter des images de résolutions variables en générant un nombre variable de jetons visuels. Cette approche permet de produire des représentations visuelles plus efficaces et précises, en phase étroite avec les processus perceptifs humains. Le modèle intègre également un encodage de position multivarié à rotation (M-RoPE), facilitant une fusion efficace des informations de position entre texte, images et vidéos. Nous adoptons un paradigme unifié pour le traitement à la fois des images et des vidéos, renforçant ainsi les capacités de perception visuelle du modèle. Afin d’explorer le potentiel des grands modèles multimodaux, la série Qwen2-VL étudie les lois d’échelle applicables aux grands modèles vision-langage (LVLM). En échelonnant à la fois la taille du modèle — avec des versions de 2 milliards, 8 milliards et 72 milliards de paramètres — et la quantité de données d’entraînement, la série Qwen2-VL atteint des performances hautement compétitives. Notamment, le modèle Qwen2-VL-72B obtient des résultats comparables à ceux des modèles leaders tels que GPT-4o et Claude3.5-Sonnet sur divers benchmarks multimodaux, dépassant les performances d’autres modèles généralistes. Le code est disponible à l’adresse suivante : https://github.com/QwenLM/Qwen2-VL.