HyperAIHyperAI
منذ 3 أشهر

NVILA: نماذج لغة بصرية فعّالة على الحدود العليا

Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu
NVILA: نماذج لغة بصرية فعّالة على الحدود العليا
الملخص

لقد حققت نماذج اللغة البصرية (VLMs) تقدماً كبيراً في الدقة في السنوات الأخيرة. ومع ذلك، لم تحظَ كفاءتها باهتمامٍ يُذكر. تقدم هذه الورقة نموذج NVILA، وهو عائلة من نماذج اللغة البصرية المفتوحة المصممة لتحسين الكفاءة والدقة معًا. مستندةً إلى بنية VILA، قمنا بتحسين بنية النموذج من خلال رفع الدقة المكانية والزمنية أولًا، ثم ضغط رموز الصور. يُمكّن هذا النهج "التوسع ثم الضغط" نموذج NVILA من معالجة الصور عالية الدقة والفيديوهات الطويلة بكفاءة. كما أجرينا دراسة منهجية لتعزيز كفاءة NVILA طوال دورة حياتها الكاملة، بدءًا من التدريب والضبط الدقيق وحتى النشر. ويحقق NVILA دقة تُوازي أو تفوق العديد من النماذج الرائدة المفتوحة والخاصة في مجموعة واسعة من معايير الصور والفيديوهات. وفي الوقت نفسه، يقلل من تكاليف التدريب بنسبة 4.5 مرة، ويقلل من استخدام الذاكرة أثناء الضبط الدقيق بنسبة 3.4 مرة، ويقلل من زمن التعبئة الأولية بنسبة 1.6 إلى 2.2 مرة، ويقلل من زمن التفكيك بنسبة 1.2 إلى 2.8 مرة. وسوف نُعلن قريبًا عن إتاحة رمز المصدر والنماذج لتسهيل إعادة الإنتاج.