الملخص

تُعد القدرة على التعامل مع السياقات الطويلة أمرًا بالغ الأهمية للنماذج الأساسية متعددة الوسائط. نقدّم "LongVILA"، وهو حل متكامل يغطي جميع مراحل تطوير النماذج البصرية-اللغوية ذات السياق الطويل، بما في ذلك النظام، وتدريب النموذج، وتطوير المجموعات البيانات. من ناحية النظام، نُقدّم أول نظام يُسمى "التوازي التسلسلي متعدد الوسائط" (MM-SP)، الذي يمكّن من تدريب النماذج واستنتاجها بسياقات طويلة، ويُتيح تدريب نموذج بطول سياق يصل إلى 2 مليون وحدة على 256 وحدة معالجة رسومية (GPU). كما يُعد MM-SP فعّالًا جدًا، حيث يُسجّل أداءً أسرع بـ 2.1 إلى 5.7 أضعاف مقارنةً بنظام التوازي التسلسلي من نوع Ring-Style، وأسرع بـ 1.1 إلى 1.4 أضعاف مقارنةً بنظام Megatron-LM في السياقات النصية فقط. علاوةً على ذلك، يتكامل هذا النظام بسلاسة مع مكتبة Hugging Face Transformers. أما في مجال تدريب النموذج، فنُقدّم نموذجًا مُتدرّجًا مكوّنًا من خمس مراحل تشمل: التماثل (alignment)، والتدريب المسبق (pre-training)، وتمديد السياق (context extension)، والتدريج المُراقب المشترك بين السياقات القصيرة والطويلة (long-short joint supervised fine-tuning). وفيما يخص مجموعات البيانات، قمنا ببناء مجموعات بيانات ضخمة لتدريب النماذج البصرية-اللغوية، ومجموعات بيانات مخصصة للفيديو الطويل تُوجّه حسب التعليمات، لدعم عملية التدريب متعددة المراحل. يمكّن الحل المتكامل من زيادة عدد الإطارات القابلة للتعامل معها في نموذج VILA بمقدار 128 ضعفًا (من 8 إطارات إلى 1024 إطارة)، ويرفع من درجة تسمية الفيديو الطويل من 2.00 إلى 3.26 (بزيادة بنسبة 1.6 مرة)، ويحقق دقة تصل إلى 99.5% في مهام اكتشاف الإبرة في كومة قش بفيديوهات مكوّنة من 1400 إطارًا (بطول سياق 274 ألف وحدة). كما أظهر نموذج LongVILA-8B تحسّنًا مستمرًا في الأداء على الفيديوهات الطويلة ضمن معيار VideoMME، مع زيادة عدد إطارات الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu8 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu