HyperAIHyperAI
منذ 7 أيام

ماغفيت: مُحَوِّل فيديو توليدِي مُسْتَخْفٍ

Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang
ماغفيت: مُحَوِّل فيديو توليدِي مُسْتَخْفٍ
الملخص

نقدم نموذج التحويل البصري التوليدي المُسمى MAGVIT (MAsked Generative VIdeo Transformer) لمعالجة مهام توليد الفيديو المتنوعة باستخدام نموذج واحد. نُقدّم مُفكّكًا ثلاثي الأبعاد (3D tokenizer) لترميز الفيديو إلى رموز بصرية فضائية-زمنية، ونُقترح طريقة تضمين لنمذجة الرموز البصرية المُخفية، مما يُسهّل التعلّم متعدد المهام. أجرينا تجارب واسعة النطاق لإثبات جودة MAGVIT وكفاءته والمرونة التي يتمتع بها. تُظهر نتائج تجاربنا أن: (i) يتفوّق MAGVIT على أحدث النماذج المُعلَّمة ويُحقّق أفضل قيمة منشورة لمؤشر FVD (Fréchet Video Distance) على ثلاث معايير لتوليد الفيديو، بما في ذلك معيار Kinetics-600 الصعب. (ii) يتفوّق MAGVIT على الطرق الحالية من حيث زمن الاستدلال بمقدار مرّتين على نماذج التشتت (diffusion models)، وبمقدار 60 مرة على النماذج التسلسلية (autoregressive models). (iii) يدعم نموذج MAGVIT الواحد عشرة مهام توليد متنوعة، ويُظهر قدرة على التعميم عبر مقاطع فيديو من مجالات بصرية مختلفة. سيتم الإفراج عن الشفرة المصدرية والنموذج المدرب للجمهور عبر الرابط: https://magvit.cs.cmu.edu.

ماغفيت: مُحَوِّل فيديو توليدِي مُسْتَخْفٍ | أحدث الأوراق البحثية | HyperAI