NVILA: نماذج لغة بصرية فعّالة على الحدود العليا

لقد حققت نماذج اللغة البصرية (VLMs) تقدماً كبيراً في الدقة في السنوات الأخيرة. ومع ذلك، لم تحظَ كفاءتها باهتمامٍ يُذكر. تقدم هذه الورقة نموذج NVILA، وهو عائلة من نماذج اللغة البصرية المفتوحة المصممة لتحسين الكفاءة والدقة معًا. مستندةً إلى بنية VILA، قمنا بتحسين بنية النموذج من خلال رفع الدقة المكانية والزمنية أولًا، ثم ضغط رموز الصور. يُمكّن هذا النهج "التوسع ثم الضغط" نموذج NVILA من معالجة الصور عالية الدقة والفيديوهات الطويلة بكفاءة. كما أجرينا دراسة منهجية لتعزيز كفاءة NVILA طوال دورة حياتها الكاملة، بدءًا من التدريب والضبط الدقيق وحتى النشر. ويحقق NVILA دقة تُوازي أو تفوق العديد من النماذج الرائدة المفتوحة والخاصة في مجموعة واسعة من معايير الصور والفيديوهات. وفي الوقت نفسه، يقلل من تكاليف التدريب بنسبة 4.5 مرة، ويقلل من استخدام الذاكرة أثناء الضبط الدقيق بنسبة 3.4 مرة، ويقلل من زمن التعبئة الأولية بنسبة 1.6 إلى 2.2 مرة، ويقلل من زمن التفكيك بنسبة 1.2 إلى 2.8 مرة. وسوف نُعلن قريبًا عن إتاحة رمز المصدر والنماذج لتسهيل إعادة الإنتاج.