HyperAI
منذ 17 أيام

Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد
الملخص

النماذج اللغوية الكبيرة ذات الترتيب الذاتي (LLMs) قد وحدت مجموعة واسعة من مهام اللغة، مما ألهم جهودًا أولية في توليد الفيديو ذات الترتيب الذاتي. ومع ذلك، فإن المولدات الحالية للفيديو ذات الترتيب الذاتي إما تبتعد عن هندسة LLM القياسية، أو تعتمد على مُشفِّرات نص خارجية ضخمة، أو تتسبب في تأخير غير قابل للتحمل بسبب فك شفرة الرمز التالي. في هذا البحث، نقدم Lumos-1، وهو مولد فيديو ذات ترتيب ذاتي يحتفظ بهندسة LLM مع تعديلات هندسية طفيفة فقط. لحقن العلاقات الزمانية والمكانية في LLMs، نحدد فعالية دمج RoPE ثلاثي الأبعاد (3D RoPE) ونحلل الطيف الترددي غير المتوازن له. لذلك، نقترح MM-RoPE، وهو نظام RoPE يحافظ على RoPE النصي الأصلي بينما يوفر طيف ترددي شامل ومواقع ثلاثية الأبعاد مقسمة لنمذجة البيانات الزمانية والمكانية متعددة الوسائط. بالإضافة إلى ذلك، يعتمد Lumos-1 على استراتيجية اعتمادية الرموز التي تحترم ثنائية الاتجاه داخل الإطار الزمني والسببية الزمنية بين الإطارات. بناءً على هذه الاستراتيجية الاعتمادية، نحدد مشكلة عدم توازن الخسارة الإطارية الناجمة عن فائض المعلومات المكانية ونحلها بمقترحنا Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF يدخل تغليف الأنابيب الزمنية أثناء التدريب مع سياسة تغليف متوافقة وقت الاستدلال لتجنب انخفاض الجودة. باستخدام تقنيات تدريب كفاءة الذاكرة، قمنا بتدريب Lumos-1 بشكل مسبق على 48 وحدة معالجة فقط لتحقيق أداء مماثل لأداء EMU3 على GenEval، وأداء OpenSoraPlan على VBench-T2V، وأداء COSMOS-Video2World على VBench-I2V. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/alibaba-damo-academy/Lumos.