Command Palette
Search for a command to run...
Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

الملخص
أظهرت النماذج متعددة الوسائط الموحدة نتائج واعدة في إنشاء المحتوى متعدد الوسائط وتحريره، لكنها ما زالت محدودة بشكل كبير في مجال الصور. في هذه الدراسة، نقدم نموذج UniVideo، وهو إطار مرن يوسع الموديلات الموحدة إلى مجال الفيديو. يعتمد UniVideo على تصميم ثنائي التدفق، حيث يدمج نموذج لغة كبير متعدد الوسائط (MLLM) لفهم التعليمات مع نموذج DiT متعدد الوسائط (MMDiT) لإنجاز إنشاء الفيديو. يتيح هذا التصميم تفسيرًا دقيقًا للتعليمات متعددة الوسائط المعقدة مع الحفاظ على الاتساق البصري. وبنيت على هذا الهيكل، يوحد UniVideo مهام إنشاء الفيديو وتحريره المتنوعة ضمن منهجية تعليمات متعددة الوسائط واحدة، ويتم تدريبه بشكل مشترك على جميع هذه المهام. تُظهر التجارب الواسعة أن UniVideo يتفوق أو يوازي النماذج المتميزة المخصصة لكل مهمة في مهام إنشاء الفيديو من نص/صورة، وإنشاء الفيديو في سياق (in-context)، وتحرير الفيديو في سياق. وبشكل لافت، يتيح التصميم الموحد لـ UniVideo نوعين من التعميم: أولاً، يدعم UniVideo تكوين المهام، مثل دمج التحرير مع نقل الأسلوب، من خلال دمج عدة قدرات داخل تعليمات واحدة. ثانيًا، حتى دون تدريب صريح على تحرير الفيديو بحرية، يُحول UniVideo قدرته على التحرير من بيانات التحرير الكبيرة للصور إلى هذا السياق، ويُعالج تعليمات غير مسبوقة مثل إزالة الخلفية الخضراء للشخصيات أو تغيير المواد داخل الفيديو. إلى جانب هذه القدرات الأساسية، يدعم UniVideo أيضًا إنشاء الفيديو القائم على الإشارات البصرية، حيث يفسر نموذج MLLM الإشارات البصرية ويوجه نموذج MMDiT أثناء عملية التوليد. ولتشجيع الأبحاث المستقبلية، سنقوم بالإفصاح عن نموذجنا وشفرته المصدرية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.