HyperAIHyperAI

Command Palette

Search for a command to run...

Make-A-Video: إنشاء فيديو من نص دون استخدام بيانات نص-فيديو

الملخص

نُقدّم "Make-A-Video" — وهي منهجية لتحويل التقدم الكبير الذي تم تحقيقه مؤخرًا في إنشاء الصور من النص (T2I) إلى إنشاء الفيديو من النص (T2V) بشكل مباشر. تكمن فكرتنا الأساسية في التعلّم من البيانات المزدوجة (نص-صورة) حول كيف يبدو العالم وكيف يُوصف، والتّعلّم من مقاطع الفيديو غير المُوسَّمة حول كيفية حركة العالم. يتميّز Make-A-Video بثلاثة مزايا رئيسية: (1) يسرّع عملية تدريب نموذج T2V (دون الحاجة إلى تعلّم التمثيلات البصرية والمتعددة الوسائط من الصفر)، (2) لا يتطلب بيانات مزدوجة (نص-فيديو)، و(3) ترث الفيديوهات المُنشأة التنوّع الكبير (في الجمالية، والتصوير الخيالي، وغيرها) الذي تتميز به نماذج إنشاء الصور الحديثة. قمنا بتصميم طريقة بسيطة لكنها فعّالة لبناء نماذج T2I باستخدام وحدات مكانيّة-زمنيّة جديدة وفعّالة. أولاً، نقوم بتفكيك شبكة U-Net الزمنية الكاملة وtensor التفكير الانتباه، ثم نقدّرها في الفضاء والزمن. ثانيًا، صممنا مسارًا مكانيًّا-زمنيًّا لإنتاج مقاطع فيديو عالية الدقة وسرعة إطار عالية باستخدام مُفكّك فيديو، ونموذج تداخل، ونظامين لتحسين الدقة (super-resolution)، مما يمكّن من تطبيقات متنوعة غير محدودة بخلاف T2V. في جميع الجوانب — الدقة المكانية والزمنية، والالتزام بدقة النص، وجودة الإخراج — يُعدّ Make-A-Video الحدّ الأقصى المُحقّق في مجال إنشاء الفيديو من النص، وفقًا لمقاييس كمية ونوعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp