HyperAIHyperAI
منذ 11 أيام

فيديوكريتير 1: نماذج توزيع مفتوحة لإنشاء فيديوهات عالية الجودة

Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
فيديوكريتير 1: نماذج توزيع مفتوحة لإنشاء فيديوهات عالية الجودة
الملخص

لقد اكتسبت توليد الفيديو اهتمامًا متزايدًا في كل من الأوساط الأكاديمية والصناعية. وعلى الرغم من أن الأدوات التجارية قادرة على إنتاج مقاطع فيديو مُقنعة، إلا أن عدد النماذج المفتوحة المصدر المتاحة للباحثين والمهندسين محدود جدًا. في هذا العمل، نقدّم نموذجين لنموذج التشتت (diffusion models) لتصنيع فيديوهات عالية الجودة، وهما نموذج التوليد من النص إلى الفيديو (T2V) ونموذج التوليد من الصورة إلى الفيديو (I2V). يُولّد نموذج T2V فيديو استنادًا إلى مدخل نصي معطى، بينما يُضفي نموذج I2V مدخلًا صوريًا إضافيًا. ويُظهر نموذج T2V المُقترح قدرة على إنتاج مقاطع فيديو واقعية وبجودة سينمائية بحلقة تبلغ $1024 \times 576$، متفوقًا على النماذج المفتوحة المصدر الأخرى من نوع T2V من حيث الجودة. أما نموذج I2V، فهو مصمم لإنتاج مقاطع فيديو تلتزم بدقة بمحتوى الصورة المرجعية المقدمة، مع الحفاظ على محتواها وبنية صورتها وأسلوبها. ويُعد هذا النموذج أول نموذج أساسي مفتوح المصدر من نوع I2V قادر على تحويل صورة معطاة إلى مقطع فيديو مع الحفاظ على قيود الحفاظ على المحتوى. ونعتقد أن هذه النماذج المفتوحة المصدر لتوليد الفيديو ستساهم بشكل كبير في التقدم التكنولوجي داخل المجتمع العلمي.

فيديوكريتير 1: نماذج توزيع مفتوحة لإنشاء فيديوهات عالية الجودة | أحدث الأوراق البحثية | HyperAI