InfiMM-HD: قفزة إلى الأمام في الفهم متعدد الوسائط عالي الدقة

شهدت النماذج الكبيرة متعددة الوسائط (MLLMs) تقدماً كبيراً في الآونة الأخيرة. ومع ذلك، تظل التحديات قائمة فيما يتعلق بالتعرف الدقيق وفهم التفاصيل المعقدة في الصور عالية الدقة. وعلى الرغم من أهميتها البالغة في تطوير نماذج MLLMs القوية، فإن هذا المجال ما زال يفتقر إلى الاهتمام الكافي في الأبحاث. وللتغلب على هذا التحدي، نقدم في عملنا معمارية جديدة تُدعى InfiMM-HD، مصممة خصيصاً لمعالجة الصور ذات الدقة المختلفة بتكاليف حوسبة منخفضة. تُمكّن هذه الابتكار من توسيع قدرات نماذج MLLMs لدعم الدقة العالية. وتتضمن InfiMM-HD وحدة انتباه متقاطع ونُوافذ بصرية لتقليل تكاليف الحوسبة. وبدمج هذه البنية المعمارية مع خط أنابيب تدريب مكون من أربع مراحل، تحقق نماذجنا تحسناً فعالاً واقتصادياً في القدرة البصرية. وتشير الدراسات التجريبية إلى متانة وفعالية InfiMM-HD، مما يفتح آفاقاً جديدة للبحث في المجالات ذات الصلة. يمكن العثور على الشيفرات والنماذج على الرابط: https://huggingface.co/Infi-MM/infimm-hd