HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-UHD: نموذج لغوي متعدد الوسائط يدرك أي نسبة أبعاد وصور عالية الدقة

Ruyi Xu Yuan Yao Zonghao Guo Junbo Cui Zanlin Ni Chunjiang Ge Tat-Seng Chua Zhiyuan Liu Maosong Sun Gao Huang

الملخص

تُشكّل الترميز البصري الأساس الذي تقوم عليه النماذج متعددة الوسائط الكبيرة (LMMs) لفهم العالم البصري. تُعالج النماذج التقليدية متعددة الوسائط الكبيرة الصور بمقاسات ثابتة ودقة محدودة، في حين أن الدراسات الحديثة في هذا المجال محدودة من حيث المرونة والكفاءة وحتى الدقة. في هذه الدراسة، نأخذ GPT-4V وLLaVA-1.5 كأمثلة تمثيلية، ونكشف عن عيوب منهجية ناتجة عن استراتيجيات الترميز البصري الخاصة بهما. ولحل هذه التحديات، نقدّم LLaVA-UHD، وهي نموذج متعدد الوسائط كبير قادر على استقبال الصور بجميع نسب العرض إلى الطول والدقة العالية بكفاءة. يتكوّن LLaVA-UHD من ثلاث مكونات رئيسية: (1) استراتيجية تجزئة الصورة التي تقسم الصور بدقة الأصل إلى قطع أصغر بأحجام متغيرة لتمكين الترميز الفعّال والقابل للتوسع، (2) وحدة ضغط تقوم بتوحيد المزيد من الرموز البصرية الناتجة عن مُشفّرات الصور، و(3) نموذج مكاني يُنظّم رموز القطع لاستخدامها في النماذج اللغوية الكبيرة (LLMs). أظهرت التجارب الشاملة أن LLaVA-UHD تتفوّق على النماذج المتقدمة متعددة الوسائط التي تم تدريبها باستخدام 2 إلى 3 درجات من البيانات الإضافية في 9 معايير اختبار. وبشكل ملحوظ، يدعم نموذجنا المبني على LLaVA-1.5 بحجم 336x336 صورًا بحجم أكبر بست مرات (أي 672x1088) باستخدام فقط 94% من حسابات الاستنتاج، ويحقق تحسنًا في الدقة بنسبة 6.4% في معيار TextVQA. علاوة على ذلك، يمكن تدريب النموذج بكفاءة في البيئات الأكاديمية، خلال 23 ساعة فقط على 8 وحدات معالجة A100 (مقابل 26 ساعة لـ LLaVA-1.5). نُقدّم البيانات والكود الخاصين بالدراسة متاحين للجمهور عبر الرابط التالي: https://github.com/thunlp/LLaVA-UHD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp