HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique Qwen2.5-VL

Résumé

Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui marque des progrès significatifs tant au niveau des capacités fondamentales que des fonctionnalités innovantes. Qwen2.5-VL réalise une avancée majeure dans la compréhension et l’interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste des documents et une compréhension des vidéos longues. Une caractéristique marquante de Qwen2.5-VL réside dans sa capacité à localiser des objets avec une grande précision, à l’aide de boîtes englobantes (bounding boxes) ou de points. Il permet une extraction structurée fiable de données à partir de factures, de formulaires et de tableaux, ainsi qu’une analyse détaillée de graphiques, de schémas et de mises en page. Pour traiter des entrées complexes, Qwen2.5-VL introduit un traitement à résolution dynamique et un encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de longue durée (jusqu’à plusieurs heures) avec une localisation d’événements au niveau de la seconde. Cela lui confère la capacité de percevoir nativement les échelles spatiales et les dynamiques temporelles, sans recourir à des techniques de normalisation classiques. En entraînant à partir de zéro un Vision Transformer (ViT) à résolution dynamique native, et en intégrant l’attention par fenêtres (Window Attention), nous réduisons le surcroît de calcul tout en conservant la résolution native. En conséquence, Qwen2.5-VL se distingue non seulement dans la compréhension d’images statiques et de documents, mais aussi en tant qu’agent visuel interactif capable de raisonnement, d’utilisation d’outils et d’exécution de tâches dans des scénarios du monde réel, tels que l’exploitation d’ordinateurs ou de dispositifs mobiles. Qwen2.5-VL est disponible en trois tailles, couvrant une large gamme d’applications, allant de l’IA embarquée (edge AI) aux systèmes de calcul haute performance. Le modèle phare, Qwen2.5-VL-72B, atteint les performances des modèles de pointe tels que GPT-4o et Claude 3.5 Sonnet, en particulier dans la compréhension des documents et des schémas. En outre, Qwen2.5-VL maintient des performances linguistiques solides, préservant les compétences fondamentales en langage du modèle LLM Qwen2.5.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp