HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-HD: قفزة إلى الأمام في الفهم متعدد الوسائط عالي الدقة

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

الملخص

شهدت النماذج الكبيرة متعددة الوسائط (MLLMs) تقدماً كبيراً في الآونة الأخيرة. ومع ذلك، تظل التحديات قائمة فيما يتعلق بالتعرف الدقيق وفهم التفاصيل المعقدة في الصور عالية الدقة. وعلى الرغم من أهميتها البالغة في تطوير نماذج MLLMs القوية، فإن هذا المجال ما زال يفتقر إلى الاهتمام الكافي في الأبحاث. وللتغلب على هذا التحدي، نقدم في عملنا معمارية جديدة تُدعى InfiMM-HD، مصممة خصيصاً لمعالجة الصور ذات الدقة المختلفة بتكاليف حوسبة منخفضة. تُمكّن هذه الابتكار من توسيع قدرات نماذج MLLMs لدعم الدقة العالية. وتتضمن InfiMM-HD وحدة انتباه متقاطع ونُوافذ بصرية لتقليل تكاليف الحوسبة. وبدمج هذه البنية المعمارية مع خط أنابيب تدريب مكون من أربع مراحل، تحقق نماذجنا تحسناً فعالاً واقتصادياً في القدرة البصرية. وتشير الدراسات التجريبية إلى متانة وفعالية InfiMM-HD، مما يفتح آفاقاً جديدة للبحث في المجالات ذات الصلة. يمكن العثور على الشيفرات والنماذج على الرابط: https://huggingface.co/Infi-MM/infimm-hd


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
InfiMM-HD: قفزة إلى الأمام في الفهم متعدد الوسائط عالي الدقة | مستندات | HyperAI