HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2-VL : Amélioration de la perception du monde par les modèles vision-langage à toute résolution

Résumé

Nous présentons la série Qwen2-VL, une évolution avancée des modèles Qwen-VL précédents, qui repense l’approche conventionnelle à résolution prédéfinie en traitement visuel. Le modèle Qwen2-VL introduit un mécanisme de résolution dynamique naïve, permettant au modèle de traiter des images de résolutions variables en générant un nombre variable de jetons visuels. Cette approche permet de produire des représentations visuelles plus efficaces et précises, en phase étroite avec les processus perceptifs humains. Le modèle intègre également un encodage de position multivarié à rotation (M-RoPE), facilitant une fusion efficace des informations de position entre texte, images et vidéos. Nous adoptons un paradigme unifié pour le traitement à la fois des images et des vidéos, renforçant ainsi les capacités de perception visuelle du modèle. Afin d’explorer le potentiel des grands modèles multimodaux, la série Qwen2-VL étudie les lois d’échelle applicables aux grands modèles vision-langage (LVLM). En échelonnant à la fois la taille du modèle — avec des versions de 2 milliards, 8 milliards et 72 milliards de paramètres — et la quantité de données d’entraînement, la série Qwen2-VL atteint des performances hautement compétitives. Notamment, le modèle Qwen2-VL-72B obtient des résultats comparables à ceux des modèles leaders tels que GPT-4o et Claude3.5-Sonnet sur divers benchmarks multimodaux, dépassant les performances d’autres modèles généralistes. Le code est disponible à l’adresse suivante : https://github.com/QwenLM/Qwen2-VL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp