HyperAIHyperAI

Command Palette

Search for a command to run...

NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال

الملخص

أحرزت نماذج اللغة البصرية (VLMs) تقدماً كبيراً في الدقة خلال السنوات الأخيرة. ومع ذلك، لم تُلقَ كفاءة هذه النماذج اهتماماً يُذكر. تقدّم هذه الورقة نموذج NVILA، وهو عائلة من نماذج اللغة البصرية المفتوحة المصممة لتحسين الكفاءة والدقة معًا. مستندةً إلى نموذج VILA، قمنا بتحسين بنية النموذج من خلال رفع دقة المساحة والزمن أولاً، ثم تقليل حجم الرموز البصرية (visual tokens). يُعدّ هذا النهج "التوسع أولاً ثم التقليل" فعالاً في معالجة الصور عالية الدقة والفيديوهات الطويلة. كما أجرينا دراسة منهجية لتعزيز كفاءة NVILA طوال دورة حياتها الكاملة، بدءاً من التدريب والضبط الدقيق (fine-tuning) وصولاً إلى النشر (deployment). وتُظهر NVILA دقة تُعادل أو تفوق العديد من النماذج الرائدة المفتوحة والخاصة في مجموعة واسعة من معايير الصور والفيديوهات. وفي الوقت نفسه، تقلل من تكاليف التدريب بنسبة 4.5 مرة، وتُقلّل من استهلاك الذاكرة أثناء الضبط الدقيق بنسبة 3.4 مرة، وتُخفّض زمن التعبئة الأولية (pre-filling latency) بنسبة 1.6 إلى 2.2 مرة، وتُقلّل من زمن التشفير (decoding latency) بنسبة 1.2 إلى 2.8 مرة. وسوف نُطلق قريبًا كودنا ونماذجنا لتمكين إعادة التكرار (reproducibility).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
NVILA: نماذج لغة بصرية لعرض الحد الأقصى الفعّال | مستندات | HyperAI