Command Palette
Search for a command to run...
LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة
LongVILA: توسيع النماذج اللغوية البصرية ذات السياق الطويل للفيديوهات الطويلة
الملخص
تُعد القدرة على التعامل مع السياقات الطويلة أمرًا بالغ الأهمية للنماذج الأساسية متعددة الوسائط. نقدّم "LongVILA"، وهو حل متكامل يغطي جميع مراحل تطوير النماذج البصرية-اللغوية ذات السياق الطويل، بما في ذلك النظام، وتدريب النموذج، وتطوير المجموعات البيانات. من ناحية النظام، نُقدّم أول نظام يُسمى "التوازي التسلسلي متعدد الوسائط" (MM-SP)، الذي يمكّن من تدريب النماذج واستنتاجها بسياقات طويلة، ويُتيح تدريب نموذج بطول سياق يصل إلى 2 مليون وحدة على 256 وحدة معالجة رسومية (GPU). كما يُعد MM-SP فعّالًا جدًا، حيث يُسجّل أداءً أسرع بـ 2.1 إلى 5.7 أضعاف مقارنةً بنظام التوازي التسلسلي من نوع Ring-Style، وأسرع بـ 1.1 إلى 1.4 أضعاف مقارنةً بنظام Megatron-LM في السياقات النصية فقط. علاوةً على ذلك، يتكامل هذا النظام بسلاسة مع مكتبة Hugging Face Transformers. أما في مجال تدريب النموذج، فنُقدّم نموذجًا مُتدرّجًا مكوّنًا من خمس مراحل تشمل: التماثل (alignment)، والتدريب المسبق (pre-training)، وتمديد السياق (context extension)، والتدريج المُراقب المشترك بين السياقات القصيرة والطويلة (long-short joint supervised fine-tuning). وفيما يخص مجموعات البيانات، قمنا ببناء مجموعات بيانات ضخمة لتدريب النماذج البصرية-اللغوية، ومجموعات بيانات مخصصة للفيديو الطويل تُوجّه حسب التعليمات، لدعم عملية التدريب متعددة المراحل. يمكّن الحل المتكامل من زيادة عدد الإطارات القابلة للتعامل معها في نموذج VILA بمقدار 128 ضعفًا (من 8 إطارات إلى 1024 إطارة)، ويرفع من درجة تسمية الفيديو الطويل من 2.00 إلى 3.26 (بزيادة بنسبة 1.6 مرة)، ويحقق دقة تصل إلى 99.5% في مهام اكتشاف الإبرة في كومة قش بفيديوهات مكوّنة من 1400 إطارًا (بطول سياق 274 ألف وحدة). كما أظهر نموذج LongVILA-8B تحسّنًا مستمرًا في الأداء على الفيديوهات الطويلة ضمن معيار VideoMME، مع زيادة عدد إطارات الفيديو.