منذ 8 أشهر

الملخص

مع ظهور النماذج الكبيرة متعددة الوسائط في الزمن الفعلي (LMMs) مثل GPT-4o، برز اهتمام واسع بتطوير نماذج LMM الفعّالة. وعادةً ما تقوم أطر عمل LMM بتحويل المدخلات البصرية إلى "رُموز بصرية" (تمثيلات مستمرة)، ثم دمجها مع التعليمات النصية في سياق نماذج اللغة الكبيرة (LLMs)، حيث تؤدي كمية كبيرة من المعاملات وعدد كبير من رموز السياق (وهي في الغالب رموز بصرية) إلى عبء حسابي هائل. ورغم أن الجهود السابقة المبذولة لتحسين كفاءة LMM ركزت دائمًا على استبدال النواة النصية (LLM backbone) بنماذج أصغر، إلا أنها تجاهلت المشكلة الجوهرية المتعلقة بعدد الرموز. في هذا البحث، نقدّم LLaVA-Mini، وهو نموذج LMM فعّال يعتمد على أقل عدد ممكن من الرموز البصرية. ولتحقيق نسبة ضغط عالية للرموز البصرية مع الحفاظ على المعلومات البصرية، قمنا أولًا بتحليل طريقة فهم LMM للرموز البصرية، ووجدنا أن معظم الرموز البصرية تؤدي دورًا حاسمًا فقط في الطبقات المبكرة من نواة LLM، حيث تُدمج فيها المعلومات البصرية مع الرموز النصية. استنادًا إلى هذا الاكتشاف، تُقدّم LLaVA-Mini تقنية "الدمج المبكر بين الوسائط" (modality pre-fusion)، التي تُدمج المعلومات البصرية في الرموز النصية مسبقًا، مما يمكّن من ضغط رموز البصرية المُقدَّمة إلى نواة LLM إلى رمز واحد فقط. تُعد LLaVA-Mini نموذجًا متعدد الوسائط كبيرًا موحدًا، قادرًا على فهم الصور، والصور عالية الدقة، والفيديوهات بفعالية. وتوصل النتائج المُتعددة عبر 11 معيارًا مبنيًا على الصور و7 معايير مبنية على الفيديو إلى أن LLaVA-Mini تتفوّق على LLaVA-v1.5، مع استخدام رمز بصري واحد فقط بدلًا من 576. كما أظهرت تحليلات الكفاءة أن LLaVA-Mini تقلل من عدد العمليات الحسابية (FLOPs) بنسبة 77٪، وتوفر استجابات بزمن تأخير منخفض يقل عن 40 مللي ثانية، وتمكّن من معالجة أكثر من 10,000 إطار فيديو على وحدة معالجة رسومات (GPU) مزودة بذاكرة 24 جيجابايت.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters