LLaVA-UHD: نموذج لغوي متعدد الوسائط يدرك أي نسبة أبعاد وصور عالية الدقة

تُشكّل الترميز البصري الأساس الذي تقوم عليه النماذج متعددة الوسائط الكبيرة (LMMs) لفهم العالم البصري. تُعالج النماذج التقليدية متعددة الوسائط الكبيرة الصور بمقاسات ثابتة ودقة محدودة، في حين أن الدراسات الحديثة في هذا المجال محدودة من حيث المرونة والكفاءة وحتى الدقة. في هذه الدراسة، نأخذ GPT-4V وLLaVA-1.5 كأمثلة تمثيلية، ونكشف عن عيوب منهجية ناتجة عن استراتيجيات الترميز البصري الخاصة بهما. ولحل هذه التحديات، نقدّم LLaVA-UHD، وهي نموذج متعدد الوسائط كبير قادر على استقبال الصور بجميع نسب العرض إلى الطول والدقة العالية بكفاءة. يتكوّن LLaVA-UHD من ثلاث مكونات رئيسية: (1) استراتيجية تجزئة الصورة التي تقسم الصور بدقة الأصل إلى قطع أصغر بأحجام متغيرة لتمكين الترميز الفعّال والقابل للتوسع، (2) وحدة ضغط تقوم بتوحيد المزيد من الرموز البصرية الناتجة عن مُشفّرات الصور، و(3) نموذج مكاني يُنظّم رموز القطع لاستخدامها في النماذج اللغوية الكبيرة (LLMs). أظهرت التجارب الشاملة أن LLaVA-UHD تتفوّق على النماذج المتقدمة متعددة الوسائط التي تم تدريبها باستخدام 2 إلى 3 درجات من البيانات الإضافية في 9 معايير اختبار. وبشكل ملحوظ، يدعم نموذجنا المبني على LLaVA-1.5 بحجم 336x336 صورًا بحجم أكبر بست مرات (أي 672x1088) باستخدام فقط 94% من حسابات الاستنتاج، ويحقق تحسنًا في الدقة بنسبة 6.4% في معيار TextVQA. علاوة على ذلك، يمكن تدريب النموذج بكفاءة في البيئات الأكاديمية، خلال 23 ساعة فقط على 8 وحدات معالجة A100 (مقابل 26 ساعة لـ LLaVA-1.5). نُقدّم البيانات والكود الخاصين بالدراسة متاحين للجمهور عبر الرابط التالي: https://github.com/thunlp/LLaVA-UHD.