HyperAIHyperAI
il y a 2 mois

Qwen-VL : Un modèle vision-langage polyvalent pour la compréhension, la localisation, la lecture de texte et au-delà

Bai, Jinze ; Bai, Shuai ; Yang, Shusheng ; Wang, Shijie ; Tan, Sinan ; Wang, Peng ; Lin, Junyang ; Zhou, Chang ; Zhou, Jingren
Qwen-VL : Un modèle vision-langage polyvalent pour la compréhension, la localisation, la lecture de texte et au-delà
Résumé

Dans cette étude, nous présentons la série Qwen-VL, un ensemble de grands modèles vision-langage (LVLM) conçus pour percevoir et comprendre à la fois des textes et des images. Partant du modèle Qwen-LM comme base, nous lui conférons une capacité visuelle grâce à un récepteur visuel soigneusement conçu, une interface d'entrée-sortie, un pipeline d'entraînement en trois étapes et un corpus multilingue et multimodal nettoyé. Au-delà des tâches conventionnelles de description d'images et de réponse à des questions, nous implémentons les capacités d'ancrage et de lecture de texte des modèles Qwen-VL en alignant des triplets image-legend-bounding box. Les modèles résultants, incluant Qwen-VL et Qwen-VL-Chat, établissent de nouveaux records pour les modèles généralistes dans des cadres similaires sur une large gamme de benchmarks centrés sur l'image (par exemple, génération de légendes, réponse à des questions, ancrage visuel) et différents scénarios (par exemple, zero-shot, few-shot). De plus, sur des benchmarks de dialogue réel, notre Qwen-VL-Chat ajusté aux instructions montre également sa supériorité par rapport aux chatbots vision-langage existants. Le code source, une démonstration et les modèles sont disponibles à l'adresse suivante : https://github.com/QwenLM/Qwen-VL.