الملخص

النماذج اللغوية الكبيرة ذات الترتيب الذاتي (LLMs) قد وحدت مجموعة واسعة من مهام اللغة، مما ألهم جهودًا أولية في توليد الفيديو ذات الترتيب الذاتي. ومع ذلك، فإن المولدات الحالية للفيديو ذات الترتيب الذاتي إما تبتعد عن هندسة LLM القياسية، أو تعتمد على مُشفِّرات نص خارجية ضخمة، أو تتسبب في تأخير غير قابل للتحمل بسبب فك شفرة الرمز التالي. في هذا البحث، نقدم Lumos-1، وهو مولد فيديو ذات ترتيب ذاتي يحتفظ بهندسة LLM مع تعديلات هندسية طفيفة فقط. لحقن العلاقات الزمانية والمكانية في LLMs، نحدد فعالية دمج RoPE ثلاثي الأبعاد (3D RoPE) ونحلل الطيف الترددي غير المتوازن له. لذلك، نقترح MM-RoPE، وهو نظام RoPE يحافظ على RoPE النصي الأصلي بينما يوفر طيف ترددي شامل ومواقع ثلاثية الأبعاد مقسمة لنمذجة البيانات الزمانية والمكانية متعددة الوسائط. بالإضافة إلى ذلك، يعتمد Lumos-1 على استراتيجية اعتمادية الرموز التي تحترم ثنائية الاتجاه داخل الإطار الزمني والسببية الزمنية بين الإطارات. بناءً على هذه الاستراتيجية الاعتمادية، نحدد مشكلة عدم توازن الخسارة الإطارية الناجمة عن فائض المعلومات المكانية ونحلها بمقترحنا Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF يدخل تغليف الأنابيب الزمنية أثناء التدريب مع سياسة تغليف متوافقة وقت الاستدلال لتجنب انخفاض الجودة. باستخدام تقنيات تدريب كفاءة الذاكرة، قمنا بتدريب Lumos-1 بشكل مسبق على 48 وحدة معالجة فقط لتحقيق أداء مماثل لأداء EMU3 على GenEval، وأداء OpenSoraPlan على VBench-T2V، وأداء COSMOS-Video2World على VBench-I2V. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/alibaba-damo-academy/Lumos.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Lumos-1: حول توليد الفيديو التراجعي من منظور نموذج موحد

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing

Hangjie Yuan Weihua Chen Jun Cen Hu Yu Jingyun Liang Shuning Chang Zhihui Lin Tao Feng Pengwei Liu Jiazheng Xing