Command Palette
Search for a command to run...
NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال
NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال
الملخص
أحرزت نماذج اللغة البصرية (VLMs) تقدماً كبيراً في الدقة خلال السنوات الأخيرة. ومع ذلك، لم تُلقَ كفاءة هذه النماذج اهتماماً يُذكر. تقدّم هذه الورقة نموذج NVILA، وهو عائلة من نماذج اللغة البصرية المفتوحة المصممة لتحسين الكفاءة والدقة معًا. مستندةً إلى نموذج VILA، قمنا بتحسين بنية النموذج من خلال رفع دقة المساحة والزمن أولاً، ثم تقليل حجم الرموز البصرية (visual tokens). يُعدّ هذا النهج "التوسع أولاً ثم التقليل" فعالاً في معالجة الصور عالية الدقة والفيديوهات الطويلة. كما أجرينا دراسة منهجية لتعزيز كفاءة NVILA طوال دورة حياتها الكاملة، بدءاً من التدريب والضبط الدقيق (fine-tuning) وصولاً إلى النشر (deployment). وتُظهر NVILA دقة تُعادل أو تفوق العديد من النماذج الرائدة المفتوحة والخاصة في مجموعة واسعة من معايير الصور والفيديوهات. وفي الوقت نفسه، تقلل من تكاليف التدريب بنسبة 4.5 مرة، وتُقلّل من استهلاك الذاكرة أثناء الضبط الدقيق بنسبة 3.4 مرة، وتُخفّض زمن التعبئة الأولية (pre-filling latency) بنسبة 1.6 إلى 2.2 مرة، وتُقلّل من زمن التشفير (decoding latency) بنسبة 1.2 إلى 2.8 مرة. وسوف نُطلق قريبًا كودنا ونماذجنا لتمكين إعادة التكرار (reproducibility).