HyperAIHyperAI
منذ 7 أيام

Make-A-Video: إنشاء فيديو من نص دون استخدام بيانات نص-فيديو

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman
Make-A-Video: إنشاء فيديو من نص دون استخدام بيانات نص-فيديو
الملخص

نُقدّم "Make-A-Video" — وهي منهجية لتحويل التقدم الكبير الذي تم تحقيقه مؤخرًا في إنشاء الصور من النص (T2I) إلى إنشاء الفيديو من النص (T2V) بشكل مباشر. تكمن فكرتنا الأساسية في التعلّم من البيانات المزدوجة (نص-صورة) حول كيف يبدو العالم وكيف يُوصف، والتّعلّم من مقاطع الفيديو غير المُوسَّمة حول كيفية حركة العالم. يتميّز Make-A-Video بثلاثة مزايا رئيسية: (1) يسرّع عملية تدريب نموذج T2V (دون الحاجة إلى تعلّم التمثيلات البصرية والمتعددة الوسائط من الصفر)، (2) لا يتطلب بيانات مزدوجة (نص-فيديو)، و(3) ترث الفيديوهات المُنشأة التنوّع الكبير (في الجمالية، والتصوير الخيالي، وغيرها) الذي تتميز به نماذج إنشاء الصور الحديثة. قمنا بتصميم طريقة بسيطة لكنها فعّالة لبناء نماذج T2I باستخدام وحدات مكانيّة-زمنيّة جديدة وفعّالة. أولاً، نقوم بتفكيك شبكة U-Net الزمنية الكاملة وtensor التفكير الانتباه، ثم نقدّرها في الفضاء والزمن. ثانيًا، صممنا مسارًا مكانيًّا-زمنيًّا لإنتاج مقاطع فيديو عالية الدقة وسرعة إطار عالية باستخدام مُفكّك فيديو، ونموذج تداخل، ونظامين لتحسين الدقة (super-resolution)، مما يمكّن من تطبيقات متنوعة غير محدودة بخلاف T2V. في جميع الجوانب — الدقة المكانية والزمنية، والالتزام بدقة النص، وجودة الإخراج — يُعدّ Make-A-Video الحدّ الأقصى المُحقّق في مجال إنشاء الفيديو من النص، وفقًا لمقاييس كمية ونوعية.

Make-A-Video: إنشاء فيديو من نص دون استخدام بيانات نص-فيديو | أحدث الأوراق البحثية | HyperAI