HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

الملخص

مع ظهور النماذج الكبيرة متعددة الوسائط في الزمن الفعلي (LMMs) مثل GPT-4o، برز اهتمام واسع بتطوير نماذج LMM الفعّالة. وعادةً ما تقوم أطر عمل LMM بتحويل المدخلات البصرية إلى "رُموز بصرية" (تمثيلات مستمرة)، ثم دمجها مع التعليمات النصية في سياق نماذج اللغة الكبيرة (LLMs)، حيث تؤدي كمية كبيرة من المعاملات وعدد كبير من رموز السياق (وهي في الغالب رموز بصرية) إلى عبء حسابي هائل. ورغم أن الجهود السابقة المبذولة لتحسين كفاءة LMM ركزت دائمًا على استبدال النواة النصية (LLM backbone) بنماذج أصغر، إلا أنها تجاهلت المشكلة الجوهرية المتعلقة بعدد الرموز. في هذا البحث، نقدّم LLaVA-Mini، وهو نموذج LMM فعّال يعتمد على أقل عدد ممكن من الرموز البصرية. ولتحقيق نسبة ضغط عالية للرموز البصرية مع الحفاظ على المعلومات البصرية، قمنا أولًا بتحليل طريقة فهم LMM للرموز البصرية، ووجدنا أن معظم الرموز البصرية تؤدي دورًا حاسمًا فقط في الطبقات المبكرة من نواة LLM، حيث تُدمج فيها المعلومات البصرية مع الرموز النصية. استنادًا إلى هذا الاكتشاف، تُقدّم LLaVA-Mini تقنية "الدمج المبكر بين الوسائط" (modality pre-fusion)، التي تُدمج المعلومات البصرية في الرموز النصية مسبقًا، مما يمكّن من ضغط رموز البصرية المُقدَّمة إلى نواة LLM إلى رمز واحد فقط. تُعد LLaVA-Mini نموذجًا متعدد الوسائط كبيرًا موحدًا، قادرًا على فهم الصور، والصور عالية الدقة، والفيديوهات بفعالية. وتوصل النتائج المُتعددة عبر 11 معيارًا مبنيًا على الصور و7 معايير مبنية على الفيديو إلى أن LLaVA-Mini تتفوّق على LLaVA-v1.5، مع استخدام رمز بصري واحد فقط بدلًا من 576. كما أظهرت تحليلات الكفاءة أن LLaVA-Mini تقلل من عدد العمليات الحسابية (FLOPs) بنسبة 77٪، وتوفر استجابات بزمن تأخير منخفض يقل عن 40 مللي ثانية، وتمكّن من معالجة أكثر من 10,000 إطار فيديو على وحدة معالجة رسومات (GPU) مزودة بذاكرة 24 جيجابايت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp