Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد

النماذج اللغوية الكبيرة ذات الترتيب الذاتي (LLMs) قد وحدت مجموعة واسعة من مهام اللغة، مما ألهم جهودًا أولية في توليد الفيديو ذات الترتيب الذاتي. ومع ذلك، فإن المولدات الحالية للفيديو ذات الترتيب الذاتي إما تبتعد عن هندسة LLM القياسية، أو تعتمد على مُشفِّرات نص خارجية ضخمة، أو تتسبب في تأخير غير قابل للتحمل بسبب فك شفرة الرمز التالي. في هذا البحث، نقدم Lumos-1، وهو مولد فيديو ذات ترتيب ذاتي يحتفظ بهندسة LLM مع تعديلات هندسية طفيفة فقط. لحقن العلاقات الزمانية والمكانية في LLMs، نحدد فعالية دمج RoPE ثلاثي الأبعاد (3D RoPE) ونحلل الطيف الترددي غير المتوازن له. لذلك، نقترح MM-RoPE، وهو نظام RoPE يحافظ على RoPE النصي الأصلي بينما يوفر طيف ترددي شامل ومواقع ثلاثية الأبعاد مقسمة لنمذجة البيانات الزمانية والمكانية متعددة الوسائط. بالإضافة إلى ذلك، يعتمد Lumos-1 على استراتيجية اعتمادية الرموز التي تحترم ثنائية الاتجاه داخل الإطار الزمني والسببية الزمنية بين الإطارات. بناءً على هذه الاستراتيجية الاعتمادية، نحدد مشكلة عدم توازن الخسارة الإطارية الناجمة عن فائض المعلومات المكانية ونحلها بمقترحنا Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF يدخل تغليف الأنابيب الزمنية أثناء التدريب مع سياسة تغليف متوافقة وقت الاستدلال لتجنب انخفاض الجودة. باستخدام تقنيات تدريب كفاءة الذاكرة، قمنا بتدريب Lumos-1 بشكل مسبق على 48 وحدة معالجة فقط لتحقيق أداء مماثل لأداء EMU3 على GenEval، وأداء OpenSoraPlan على VBench-T2V، وأداء COSMOS-Video2World على VBench-I2V. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/alibaba-damo-academy/Lumos.