HyperAIHyperAI
منذ 2 أشهر

LongVILA: توسيع نماذج اللغة والصورة ذات السياق الطويل للفيديوهات الطويلة

Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han
LongVILA: توسيع نماذج اللغة والصورة ذات السياق الطويل للفيديوهات الطويلة
الملخص

القدرة على التعامل مع السياقات الطويلة هي أمر حاسم للنماذج الأساسية متعددة الوسائط. نقدم LongVILA، حلًا شاملًا للنماذج البصرية-اللغوية ذات السياقات الطويلة، يشمل النظام وتدريب النموذج وتطوير المجموعات البيانات. من الجانب النظامي، نقدم أول نظام متوازي تتابعي متعدد الوسائط (MM-SP) يمكنه تدريب وإجراء الاستدلال في سياقات طويلة، مما يمكّن التدريب على سياق طوله 2 مليون في 256 معالجًا رسوميًا (GPU). كما أن MM-SP فعّال، حيث يكون أسرع بمقدار 2.1 إلى 5.7 مرة من نظام التوازي التتابعي بنمط الحلقة (Ring-Style Sequence Parallelism) وأسرع بمقدار 1.1 إلى 1.4 مرة من Megatron-LM في الإعدادات النصية فقط. بالإضافة إلى ذلك، يتم دمجه بسلاسة مع Transformers من Hugging Face. بالنسبة لتدريب النموذج، نقترح خط أنابيب مكون من خمس مراحل تتضمن التنسيق والتدريب الأولي وتوسيع السياق والضبط الدقيق المشترك للسياقات الطويلة والقصيرة. فيما يتعلق بالمجموعات البيانات، نقوم ببناء مجموعات بيانات كبيرة الحجم للتدريب الأولي البصري-اللغوي ومجموعات بيانات تعليم الفيديو الطويلة بدقة عالية لدعم عملية التدريب المتعددة المراحل لدينا. يمتد الحل الشامل عدد الإطارات القابلة للتنفيذ في VILA بمقدار 128 ضعفًا (من 8 إطارات إلى 1024 إطارة) ويحسن درجة تعليق الفيديو الطويل من 2.00 إلى 3.26 (بمعدل زيادة 1.6 ضعف)، ويحقق دقة بنسبة 99.5% في الفيديوهات التي تحتوي على 1400 إطارة (طول سياق يبلغ 274 ألف). كما يظهر LongVILA-8B تحسينًا ثابتًا في الأداء على الفيديوهات الطويلة ضمن معيار VideoMME كلما زاد عدد الإطارات في الفيديو.