الملخص

شهدت النماذج الكبيرة متعددة الوسائط (MLLMs) تقدماً كبيراً في الآونة الأخيرة. ومع ذلك، تظل التحديات قائمة فيما يتعلق بالتعرف الدقيق وفهم التفاصيل المعقدة في الصور عالية الدقة. وعلى الرغم من أهميتها البالغة في تطوير نماذج MLLMs القوية، فإن هذا المجال ما زال يفتقر إلى الاهتمام الكافي في الأبحاث. وللتغلب على هذا التحدي، نقدم في عملنا معمارية جديدة تُدعى InfiMM-HD، مصممة خصيصاً لمعالجة الصور ذات الدقة المختلفة بتكاليف حوسبة منخفضة. تُمكّن هذه الابتكار من توسيع قدرات نماذج MLLMs لدعم الدقة العالية. وتتضمن InfiMM-HD وحدة انتباه متقاطع ونُوافذ بصرية لتقليل تكاليف الحوسبة. وبدمج هذه البنية المعمارية مع خط أنابيب تدريب مكون من أربع مراحل، تحقق نماذجنا تحسناً فعالاً واقتصادياً في القدرة البصرية. وتشير الدراسات التجريبية إلى متانة وفعالية InfiMM-HD، مما يفتح آفاقاً جديدة للبحث في المجالات ذات الصلة. يمكن العثور على الشيفرات والنماذج على الرابط: https://huggingface.co/Infi-MM/infimm-hd

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار