HyperAIHyperAI

Command Palette

Search for a command to run...

LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة

الملخص

تُعد القدرة على التعامل مع السياقات الطويلة أمرًا بالغ الأهمية للنماذج الأساسية متعددة الوسائط. نقدّم "LongVILA"، وهو حل متكامل يغطي جميع مراحل تطوير النماذج البصرية-اللغوية ذات السياق الطويل، بما في ذلك النظام، وتدريب النموذج، وتطوير المجموعات البيانات. من ناحية النظام، نُقدّم أول نظام يُسمى "التوازي التسلسلي متعدد الوسائط" (MM-SP)، الذي يمكّن من تدريب النماذج واستنتاجها بسياقات طويلة، ويُتيح تدريب نموذج بطول سياق يصل إلى 2 مليون وحدة على 256 وحدة معالجة رسومية (GPU). كما يُعد MM-SP فعّالًا جدًا، حيث يُسجّل أداءً أسرع بـ 2.1 إلى 5.7 أضعاف مقارنةً بنظام التوازي التسلسلي من نوع Ring-Style، وأسرع بـ 1.1 إلى 1.4 أضعاف مقارنةً بنظام Megatron-LM في السياقات النصية فقط. علاوةً على ذلك، يتكامل هذا النظام بسلاسة مع مكتبة Hugging Face Transformers. أما في مجال تدريب النموذج، فنُقدّم نموذجًا مُتدرّجًا مكوّنًا من خمس مراحل تشمل: التماثل (alignment)، والتدريب المسبق (pre-training)، وتمديد السياق (context extension)، والتدريج المُراقب المشترك بين السياقات القصيرة والطويلة (long-short joint supervised fine-tuning). وفيما يخص مجموعات البيانات، قمنا ببناء مجموعات بيانات ضخمة لتدريب النماذج البصرية-اللغوية، ومجموعات بيانات مخصصة للفيديو الطويل تُوجّه حسب التعليمات، لدعم عملية التدريب متعددة المراحل. يمكّن الحل المتكامل من زيادة عدد الإطارات القابلة للتعامل معها في نموذج VILA بمقدار 128 ضعفًا (من 8 إطارات إلى 1024 إطارة)، ويرفع من درجة تسمية الفيديو الطويل من 2.00 إلى 3.26 (بزيادة بنسبة 1.6 مرة)، ويحقق دقة تصل إلى 99.5% في مهام اكتشاف الإبرة في كومة قش بفيديوهات مكوّنة من 1400 إطارًا (بطول سياق 274 ألف وحدة). كما أظهر نموذج LongVILA-8B تحسّنًا مستمرًا في الأداء على الفيديوهات الطويلة ضمن معيار VideoMME، مع زيادة عدد إطارات الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة | مستندات | HyperAI