الملخص

أحرزت نماذج اللغة البصرية (VLMs) تقدماً كبيراً في الدقة خلال السنوات الأخيرة. ومع ذلك، لم تُلقَ كفاءة هذه النماذج اهتماماً يُذكر. تقدّم هذه الورقة نموذج NVILA، وهو عائلة من نماذج اللغة البصرية المفتوحة المصممة لتحسين الكفاءة والدقة معًا. مستندةً إلى نموذج VILA، قمنا بتحسين بنية النموذج من خلال رفع دقة المساحة والزمن أولاً، ثم تقليل حجم الرموز البصرية (visual tokens). يُعدّ هذا النهج "التوسع أولاً ثم التقليل" فعالاً في معالجة الصور عالية الدقة والفيديوهات الطويلة. كما أجرينا دراسة منهجية لتعزيز كفاءة NVILA طوال دورة حياتها الكاملة، بدءاً من التدريب والضبط الدقيق (fine-tuning) وصولاً إلى النشر (deployment). وتُظهر NVILA دقة تُعادل أو تفوق العديد من النماذج الرائدة المفتوحة والخاصة في مجموعة واسعة من معايير الصور والفيديوهات. وفي الوقت نفسه، تقلل من تكاليف التدريب بنسبة 4.5 مرة، وتُقلّل من استهلاك الذاكرة أثناء الضبط الدقيق بنسبة 3.4 مرة، وتُخفّض زمن التعبئة الأولية (pre-filling latency) بنسبة 1.6 إلى 2.2 مرة، وتُقلّل من زمن التشفير (decoding latency) بنسبة 1.2 إلى 2.8 مرة. وسوف نُطلق قريبًا كودنا ونماذجنا لتمكين إعادة التكرار (reproducibility).

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li