Qwen2-VL: تعزيز إدراك نموذج الرؤية-اللغة للعالم بجميع الدقائق

نقدم سلسلة Qwen2-VL، وهي ترقية متقدمة للنماذج السابقة Qwen-VL التي تعيد تعريف النهج التقليدي لتحديد الدقة مسبقًا في معالجة الصور. يُدخل Qwen2-VL آلية الدقة الديناميكية البسيطة (Naive Dynamic Resolution)، مما يمكّن النموذج من معالجة صور ذات دقات مختلفة بشكل ديناميكي إلى أعداد مختلفة من الرموز البصرية. هذا النهج يسمح للنموذج بإنشاء تمثيلات بصرية أكثر كفاءة ودقة، مما يتماشى عن كثب مع عمليات الإدراك البشرية. كما يدمج النموذج تضمين الموضع المتعدد الوسائط (Multimodal Rotary Position Embedding - M-RoPE)، مما يسهل دمج المعلومات الموضعية عبر النصوص والصور والفيديوهات بشكل فعال. نستخدم نموذجًا موحدًا لمعالجة الصور والفيديوهات، مما يعزز قدرات الإدراك البصري للنموذج. لاستكشاف إمكانات النماذج المتعددة الوسائط الكبيرة، تدرس سلسلة Qwen2-VL قوانين التوسع للنماذج الكبيرة للرؤية واللغة (LVLMs). من خلال توسيع حجم النموذج - بمwersions تحتوي على 2 مليار، 8 مليارات، و72 مليار معلمة - وكمية البيانات التدريبية، تحقق سلسلة Qwen2-VL أداءً تنافسيًا للغاية. ومن الجدير بالذكر أن نموذج Qwen2-VL-72B حقق نتائج مشابهة لنماذج رائدة مثل GPT-4o وClaude3.5-Sonnet في مجموعة متنوعة من مقاييس الأداء المتعددة الوسائط، وتتفوق على النماذج العامة الأخرى. يمكن الحصول على الشيفرة البرمجية من https://github.com/QwenLM/Qwen2-VL.