HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2-VL: تحسين إدراك النموذج البصري-اللغوي للعالم بجميع الدقة

الملخص

نقدّم سلسلة Qwen2-VL، وهي ترقية متقدمة للنماذج السابقة Qwen-VL، التي تعيد تعريف النهج التقليدي القائم على الدقة الثابتة في معالجة الصور. تُقدّم سلسلة Qwen2-VL آلية "الدقة الديناميكية البسيطة" (Naive Dynamic Resolution)، التي تتيح للنموذج معالجة الصور ذات الدقة المتفاوتة إلى عدد مختلف من الرموز البصرية (visual tokens) بشكل ديناميكي. يُسهم هذا النهج في إنتاج تمثيلات بصرية أكثر كفاءة ودقة، مع محاكاة أقرب لعمليات الإدراك البشري. كما يدمج النموذج تقنية التضمين الموضعي متعدد الوسائط (Multimodal Rotary Position Embedding - M-RoPE)، مما يُسهّل دمج المعلومات المكانية بشكل فعّال بين النصوص والصور والفيديوهات. نستخدم نموذجًا موحدًا لمعالجة كل من الصور والفيديوهات، ما يعزز قدرات النموذج في الإدراك البصري. ولاستكشاف إمكانات النماذج الكبيرة متعددة الوسائط، تبحث سلسلة Qwen2-VL في قوانين التوسع الخاصة بالنماذج الكبيرة للرؤية واللغة (LVLMs). من خلال توسيع حجم النموذج – بنسخة بحجم 2B و8B و72B من المعاملات – وزيادة كمية البيانات التدريبية، تحقق سلسلة Qwen2-VL أداءً تنافسيًا عاليًا. وبشكل لافت، تُظهر النسخة Qwen2-VL-72B نتائج تُقارن بالنماذج الرائدة مثل GPT-4o وClaude3.5-Sonnet في مختلف معايير التقييم متعددة الوسائط، وتتفوّق على غيرها من النماذج الشاملة (generalist models). يُمكن الاطلاع على الكود عبر الرابط: https://github.com/QwenLM/Qwen2-VL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp