HyperAIHyperAI
il y a 17 jours

Rapport technique Qwen2.5-VL

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
Rapport technique Qwen2.5-VL
Résumé

Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui marque des progrès significatifs tant au niveau des capacités fondamentales que des fonctionnalités innovantes. Qwen2.5-VL représente une avancée majeure dans la compréhension et l'interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste des documents et une compréhension approfondie des vidéos longues. Une caractéristique marquante de Qwen2.5-VL réside dans sa capacité à localiser les objets avec une grande précision, soit à l’aide de boîtes englobantes (bounding boxes), soit par des points. Il permet une extraction structurée fiable de données à partir de factures, de formulaires et de tableaux, ainsi qu’une analyse détaillée de graphiques, de schémas et de mises en page. Pour traiter des entrées complexes, Qwen2.5-VL introduit un traitement dynamique de la résolution et une encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de durée prolongée (jusqu’à plusieurs heures) avec une localisation d’événements au niveau de la seconde. Cela lui confère une perception native des échelles spatiales et des dynamiques temporelles, sans dépendre des techniques de normalisation traditionnelles. En entraînant à partir de zéro un Vision Transformer (ViT) à résolution dynamique native et en intégrant l’attention par fenêtres (Window Attention), nous réduisons le surcroît de calcul tout en conservant la résolution native. En conséquence, Qwen2.5-VL excelle non seulement dans la compréhension d’images statiques et de documents, mais aussi en tant qu’agent visuel interactif capable de raisonnement, d’utilisation d’outils et d’exécution de tâches dans des scénarios du monde réel, tels que l’exploitation d’ordinateurs ou de dispositifs mobiles. Qwen2.5-VL est disponible en trois tailles, répondant à des cas d’utilisation variés, allant de l’IA embarquée (edge AI) aux systèmes à haute performance. Le modèle phare, Qwen2.5-VL-72B, atteint des performances équivalentes à celles des modèles de pointe comme GPT-4o et Claude 3.5 Sonnet, en particulier dans les tâches de compréhension de documents et de schémas. En outre, Qwen2.5-VL maintient des performances linguistiques solides, préservant les compétences linguistiques fondamentales du modèle LLM Qwen2.5.

Rapport technique Qwen2.5-VL | Articles de recherche récents | HyperAI