HyperAI
Back to Headlines

آليباري تكشف عن Lumos-1: نموذج متكامل لتوليد الفيديو باستخدام MM-RoPE و AR-DF لتحقيق كفاءة الموديلات اللغوية الكبيرة

منذ 8 أيام

ملخص الورقة البحثية من علي بابا: تقديم Lumos-1 - مولد فيديو موحد يستخدم MM-RoPE و AR-DF لنمذجة الفضاء والزمن بكفاءة مقدمة ال generative autoregressive للفيديوهات هو مجال بحثي يتقدم بسرعة، حيث يتم إنشاء الفيديوهات إطارًا بإطار باستخدام الأنماط المحددة للترتيب المكاني والديناميكي الزمني. هذه الطريقة تختلف عن الطرق التقليدية لإنتاج الفيديو التي تعتمد على الإطارات المسبقة الصنع أو الانتقالات اليدوية، حيث تهدف النماذج autoregressive إلى إنشاء المحتوى ديناميكياً بناءً على الرموز السابقة، مشابهة لما تفعله النماذج اللغوية الكبيرة في توقع الكلمات التالية. التحديات الرئيسية واحدة من أكبر المشكلات في هذا المجال هي كيفية التقاط ونمذجة الارتباطات الفضاء-زمنية الداخلية في الفيديوهات بدقة. الفيديوهات تحتوي على هياكل غنية عبر الزمان والمكان، وترميز هذه التعقيدات بحيث يمكن للنماذج التنبؤ بإطارات متماسكة ومتناسقة في المستقبل ما زال تحديًا كبيرًا. عندما لا يتم نمذجة هذه الارتباطات بشكل جيد، يمكن أن يؤدي ذلك إلى انقطاع في استمرارية الإطارات أو إنشاء محتوى غير واقعي. بالإضافة إلى ذلك، تواجه التقنيات التقليدية في التعلم مثل التعتيم العشوائي مشكلة توفير إشارات تعلم متوازنة عبر الإطارات، مما قد يجعل التنبؤ سهلاً جدًا بسبب تسرب المعلومات المكانية من الإطارات المجاورة. الحلول المقترحة لحل هذه التحديات، قدم فريق البحث من كلية DAMO وأكاديمية Hupan Lab بجامعة علي بابا وجامعة زهيانج Lumos-1، وهو نموذج موحد لإنتاج الفيديو autoregressive يستند إلى هيكل النماذج اللغوية الكبيرة. يختلف Lumos-1 عن الأدوات السابقة في أنه لا يحتاج إلى مُعرِّفات خارجية ويغير القليل في تصميم LLM الأصلي. يستخدم النموذج تقنية MM-RoPE (Multi-Modal Rotary Position Embeddings) لمعالجة تحدي نمذجة الهيكل الثلاثي الأبعاد للفيديو، كما يستخدم نهجًا يعتمد على ارتباط الرموز، مما يحافظ على الاتجاهية الثنائية داخل الإطار والسببية الزمنية بين الإطارات، مما يتوافق بشكل طبيعي مع سلوك بيانات الفيديو. تقنية MM-RoPE في MM-RoPE، قام الباحثون بتوسيع الطرق الموجودة لـ RoPE لتوازن طيف التردد لكل من الأبعاد المكانية والزمنية. تسبب التقنيات التقليدية لـ 3D RoPE في تركيز غير صحيح للتردد، مما يؤدي إلى فقدان التفاصيل أو ترميز موضع غير واضح. تقوم MM-RoPE بإعادة هيكلة هذه التخصيصات بحيث تتلقى الأبعاد الزمنية والارتفاع والعرض تمثيلًا متوازنًا. هذا يساعد في تحسين الدقة والاتساق في توليد الإطارات. تقنية AR-DF ل addressing عدم التوازن في الخسائر أثناء التدريب الإطاري، قدم Lumos-1 تقنية AR-DF (Autoregressive Discrete Diffusion Forcing). تعتمد هذه التقنية على التعتيم الزمني للأنبوب أثناء التدريب، مما يمنع النموذج من الاعتماد الشديد على المعلومات المكانية غير المقنعة. هذا يضمن التعلم المتوازن عبر تسلسل الفيديو. يستخدم استراتيجية الاستدلال المماثلة للاستراتيجية التدريبية، مما يسمح بتوليد إطار عالي الجودة بدون تدهور. التدريب والاستنتاج تم تدريب Lumos-1 من الصفر على 60 مليون صورة و10 ملايين فيديو باستخدام فقط 48 جهاز GPU. يعتبر هذا استخدامًا ذا كفاءة عالية من حيث الذاكرة بالنظر إلى حجم التدريب. حقق النموذج نتائج مقاربة لأفضل النماذج في المجال، حيث تساوى مع EMU3 في مقاييس GenEval ومع COSMOS-Video2World في اختبار VBench-I2V، وكما تفوق على OpenSoraPlan في مقاييس VBench-T2V. هذه المقارنات توضح أن التدريب الخفيف الوزن لـ Lumos-1 لا يقوض تنافسيته. بالإضافة إلى ذلك، يدعم النموذج توليد الفيديو من النص، والفيديو من الصورة، وتوليد الصورة من النص، مما يظهر قدرته على التعميم عبر الوسائط المتعددة. التقييم والمستقبل إن هذه البحوث لا تقتصر على تحديد وحل التحديات الأساسية في نمذجة الفضاء والزمن لـ video generation فحسب، بل تظهر أيضًا كيف يضع Lumos-1 معيارًا جديدًا يجمع بين الكفاءة والفعالية في الإطارات autoregressive. من خلال دمج الهندسات المتقدمة مع تدريب مبتكر، يفتح Lumos-1 الطريق للجيل القادم من نماذج إنتاج الفيديو القابلة للتوسع والتي تتميز بجودة عالية، ويفتح آفاقًا جديدة للأبحاث الوسائط المتعددة في المستقبل. تقييم الخبراء أكد الخبراء في مجال الذكاء الاصطناعي أن Lumos-1 يمثل خطوة كبيرة نحو تحقيق توليد الفيديو الديناميكي عالي الجودة بكفاءة عالية. كما أشاروا إلى أن استخدام تقنيات MM-RoPE و AR-DF يمكن أن يساهم بشكل كبير في تحسين الأداء وتخفيض تكاليف التدريب، مما يجعله نموذجًا مثاليًا للمطورين والباحثين الذين يعملون في هذا المجال. نبذة عن شركة علي بابا تعد شركة علي بابا واحدة من أكبر الشركات العالمية في مجال التجارة الإلكترونية والتكنولوجيا. تمتلك الشركة العديد من المراكز البحثية مثل كلية DAMO وأكاديمية Hupan Lab، والتي تركز على تطوير التقنيات المتقدمة في مجال الذكاء الاصطناعي والبيانات الضخمة. هذه الجهود البحثية تساهم بشكل كبير في تقدم الشركة وتعزيز مكانتها في السوق التكنولوجي العالمي.

Related Links