Command Palette
Search for a command to run...
Qwen2-VL: تحسين إدراك النموذج البصري-اللغوي للعالم بجميع الدقة
Qwen2-VL: تحسين إدراك النموذج البصري-اللغوي للعالم بجميع الدقة
الملخص
نقدّم سلسلة Qwen2-VL، وهي ترقية متقدمة للنماذج السابقة Qwen-VL، التي تعيد تعريف النهج التقليدي القائم على الدقة الثابتة في معالجة الصور. تُقدّم سلسلة Qwen2-VL آلية "الدقة الديناميكية البسيطة" (Naive Dynamic Resolution)، التي تتيح للنموذج معالجة الصور ذات الدقة المتفاوتة إلى عدد مختلف من الرموز البصرية (visual tokens) بشكل ديناميكي. يُسهم هذا النهج في إنتاج تمثيلات بصرية أكثر كفاءة ودقة، مع محاكاة أقرب لعمليات الإدراك البشري. كما يدمج النموذج تقنية التضمين الموضعي متعدد الوسائط (Multimodal Rotary Position Embedding - M-RoPE)، مما يُسهّل دمج المعلومات المكانية بشكل فعّال بين النصوص والصور والفيديوهات. نستخدم نموذجًا موحدًا لمعالجة كل من الصور والفيديوهات، ما يعزز قدرات النموذج في الإدراك البصري. ولاستكشاف إمكانات النماذج الكبيرة متعددة الوسائط، تبحث سلسلة Qwen2-VL في قوانين التوسع الخاصة بالنماذج الكبيرة للرؤية واللغة (LVLMs). من خلال توسيع حجم النموذج – بنسخة بحجم 2B و8B و72B من المعاملات – وزيادة كمية البيانات التدريبية، تحقق سلسلة Qwen2-VL أداءً تنافسيًا عاليًا. وبشكل لافت، تُظهر النسخة Qwen2-VL-72B نتائج تُقارن بالنماذج الرائدة مثل GPT-4o وClaude3.5-Sonnet في مختلف معايير التقييم متعددة الوسائط، وتتفوّق على غيرها من النماذج الشاملة (generalist models). يُمكن الاطلاع على الكود عبر الرابط: https://github.com/QwenLM/Qwen2-VL.