HyperAI

Résumé

Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui marque des progrès significatifs tant au niveau des capacités fondamentales que des fonctionnalités innovantes. Qwen2.5-VL réalise une avancée majeure dans la compréhension et l’interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste des documents et une compréhension des vidéos longues. Une caractéristique marquante de Qwen2.5-VL réside dans sa capacité à localiser des objets avec une grande précision, à l’aide de boîtes englobantes (bounding boxes) ou de points. Il permet une extraction structurée fiable de données à partir de factures, de formulaires et de tableaux, ainsi qu’une analyse détaillée de graphiques, de schémas et de mises en page. Pour traiter des entrées complexes, Qwen2.5-VL introduit un traitement à résolution dynamique et un encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de longue durée (jusqu’à plusieurs heures) avec une localisation d’événements au niveau de la seconde. Cela lui confère la capacité de percevoir nativement les échelles spatiales et les dynamiques temporelles, sans recourir à des techniques de normalisation classiques. En entraînant à partir de zéro un Vision Transformer (ViT) à résolution dynamique native, et en intégrant l’attention par fenêtres (Window Attention), nous réduisons le surcroît de calcul tout en conservant la résolution native. En conséquence, Qwen2.5-VL se distingue non seulement dans la compréhension d’images statiques et de documents, mais aussi en tant qu’agent visuel interactif capable de raisonnement, d’utilisation d’outils et d’exécution de tâches dans des scénarios du monde réel, tels que l’exploitation d’ordinateurs ou de dispositifs mobiles. Qwen2.5-VL est disponible en trois tailles, couvrant une large gamme d’applications, allant de l’IA embarquée (edge AI) aux systèmes de calcul haute performance. Le modèle phare, Qwen2.5-VL-72B, atteint les performances des modèles de pointe tels que GPT-4o et Claude 3.5 Sonnet, en particulier dans la compréhension des documents et des schémas. En outre, Qwen2.5-VL maintient des performances linguistiques solides, préservant les compétences fondamentales en langage du modèle LLM Qwen2.5.

Résumé

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique Qwen2.5-VL

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang17 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique Qwen2.5-VL

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang17 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique Qwen2.5-VL

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang17 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang

Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang