HyperAIHyperAI
منذ 2 أشهر

LLaVA-Mini: نماذج متعددة الوسائط الكبيرة الفعالة مع رمز بصرية واحد

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng
LLaVA-Mini: نماذج متعددة الوسائط الكبيرة الفعالة مع رمز بصرية واحد
الملخص

ظهور نماذج متعددة الأوضاع كبيرة الحجم تعمل في الوقت الفعلي مثل GPT-4o أثار اهتمامًا كبيرًا بالنماذج المتعددة الأوضاع الكبيرة (LMMs) الفعالة. تُشفر الإطارات المرئية عادةً في رموز بصرية (تمثيلات مستمرة) وتدمج مع التعليمات النصية ضمن سياق النماذج اللغوية الكبيرة (LLMs)، حيث يؤدي وجود معلمات على نطاق واسع وكميات كبيرة من الرموز السياقية (معظمها رموز بصرية) إلى زيادة العبء الحسابي بشكل كبير.الجهود السابقة المبذولة لتحقيق كفاءة LMMs كانت دائمًا تركز على استبدال جزء النموذج اللغوي الكبير (LLM backbone) بنماذج أصغر، بينما تغفل عن المشكلة الحرجة المتعلقة بعدد الرموز. في هذا البحث، نقدم LLaVA-Mini، وهو نموذج متعدد الأوضاع فعال يستخدم عددًا أقل بكثير من الرموز البصرية. لتحقيق نسبة ضغط عالية للرموز البصرية مع الحفاظ على المعلومات البصرية، قمنا أولًا بتحليل كيفية فهم النماذج المتعددة الأوضاع للرموز البصرية واكتشفنا أن معظم الرموز البصرية تلعب دورًا حاسمًا فقط في الطبقات الأولى من جزء النموذج اللغوي الكبير، حيث يتم دمج المعلومات البصرية بشكل أساسي في الرموز النصية.بناءً على هذه النتيجة، يُقدم LLaVA-Mini تقنية الدمج المسبق للأوضاع لدمج المعلومات البصرية في الرموز النصية مسبقًا، مما يسهل الضغط الشديد للرموز البصرية التي يتم إدخالها إلى جزء النموذج اللغوي الكبير إلى رمز واحد. يعتبر LLaVA-Mini نموذجًا متعدد الأوضاع كبير الحجم موحد يمكنه دعم فهم الصور والصور ذات الدقة العالية والفيديوهات بطريقة فعالة. أظهرت التجارب عبر 11 مقاييس تعتمد على الصور و7 مقاييس تعتمد على الفيديو أن LLaVA-Mini يتفوق على LLaVA-v1.5 باستخدام رمز بصري واحد بدلاً من 576 رمزًا بصريًا. كما كشفت التحليلات الخاصة بالكفاءة أن LLaVA-Mini يمكنه خفض العمليات العائمة (FLOPs) بنسبة 77%، وتوفير ردود فعل ذات زمن استجابة منخفض لا يتجاوز 40 مللي ثانية، ومعالجة أكثر من 10,000 إطار فيديو على أجهزة الوحدة المعالجة للرسومات (GPU) ذات الذاكرة 24 جيجابايت.

LLaVA-Mini: نماذج متعددة الوسائط الكبيرة الفعالة مع رمز بصرية واحد | أحدث الأوراق البحثية | HyperAI