Command Palette
Search for a command to run...
Rapport technique Qwen2.5-VL
Rapport technique Qwen2.5-VL
Résumé
Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui marque des progrès significatifs tant au niveau des capacités fondamentales que des fonctionnalités innovantes. Qwen2.5-VL réalise une avancée majeure dans la compréhension et l’interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste des documents et une compréhension des vidéos longues. Une caractéristique marquante de Qwen2.5-VL réside dans sa capacité à localiser des objets avec une grande précision, à l’aide de boîtes englobantes (bounding boxes) ou de points. Il permet une extraction structurée fiable de données à partir de factures, de formulaires et de tableaux, ainsi qu’une analyse détaillée de graphiques, de schémas et de mises en page. Pour traiter des entrées complexes, Qwen2.5-VL introduit un traitement à résolution dynamique et un encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de longue durée (jusqu’à plusieurs heures) avec une localisation d’événements au niveau de la seconde. Cela lui confère la capacité de percevoir nativement les échelles spatiales et les dynamiques temporelles, sans recourir à des techniques de normalisation classiques. En entraînant à partir de zéro un Vision Transformer (ViT) à résolution dynamique native, et en intégrant l’attention par fenêtres (Window Attention), nous réduisons le surcroît de calcul tout en conservant la résolution native. En conséquence, Qwen2.5-VL se distingue non seulement dans la compréhension d’images statiques et de documents, mais aussi en tant qu’agent visuel interactif capable de raisonnement, d’utilisation d’outils et d’exécution de tâches dans des scénarios du monde réel, tels que l’exploitation d’ordinateurs ou de dispositifs mobiles. Qwen2.5-VL est disponible en trois tailles, couvrant une large gamme d’applications, allant de l’IA embarquée (edge AI) aux systèmes de calcul haute performance. Le modèle phare, Qwen2.5-VL-72B, atteint les performances des modèles de pointe tels que GPT-4o et Claude 3.5 Sonnet, en particulier dans la compréhension des documents et des schémas. En outre, Qwen2.5-VL maintient des performances linguistiques solides, préservant les compétences fondamentales en langage du modèle LLM Qwen2.5.