HyperAIHyperAI
منذ 8 أيام

نماذج التمايز الفيديوية الكامنة لإنشاء فيديوهات طويلة عالية الولادة

Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen
نماذج التمايز الفيديوية الكامنة لإنشاء فيديوهات طويلة عالية الولادة
الملخص

لقد جذبت المحتويات المولّدة بواسطة الذكاء الاصطناعي اهتمامًا كبيرًا مؤخرًا، لكن محاكاة الفيديوهات الواقعية من الصور تظل تحديًا كبيرًا. وعلى الرغم من الجهود المبذولة باستخدام نماذج GAN والنماذج التلقائية التوليدية في هذا المجال، فإن الجودة البصرية وطول الفيديوهات المولّدة لا تزال بعيدة عن المستوى المرضي. وقد أظهرت نماذج الانتشار نتائج ملحوظة مؤخرًا، لكنها تتطلب موارد حوسبة كبيرة. ولحل هذه المشكلة، نقدّم نماذج فيديو انتشار خفيفة الوزن من خلال الاستفادة من فضاء لاتنتي ثلاثي الأبعاد منخفض الأبعاد، مما يُفوق بوضوح النماذج السابقة للفيديو في فضاء البكسل تحت حدود محدودة للقدرة الحاسوبية. علاوةً على ذلك، نقترح نموذج انتشار هرمي في الفضاء اللاتيني، مما يمكّن من إنتاج فيديوهات أطول تتجاوز ألف إطار. ولتجاوز مشكلة تدهور الأداء في إنتاج الفيديوهات الطويلة، نقترح تداخلًا مُشَرَّطًا في الفضاء اللاتيني والتوجيه غير المشروط، اللذين يُقللان بشكل فعّال من الأخطاء المتراكمة أثناء تمديد طول الفيديو. وتشير التجارب الواسعة على مجموعات بيانات صغيرة من فئات مختلفة إلى أن إطارنا يُنتج فيديوهات أكثر واقعية وأطول من النماذج القوية السابقة. كما نقدّم تمديدًا لتطبيقات إنشاء فيديو من نص على نطاق واسع، لتوضيح تفوق عملنا. وسيتم إتاحة كودنا ونماذجنا للجمهور بشكل عام.

نماذج التمايز الفيديوية الكامنة لإنشاء فيديوهات طويلة عالية الولادة | أحدث الأوراق البحثية | HyperAI