HyperAIHyperAI

Command Palette

Search for a command to run...

ماغفيت: مُحَوِّل فيديو توليدِي مُسْتَخْفٍ

الملخص

نقدم نموذج التحويل البصري التوليدي المُسمى MAGVIT (MAsked Generative VIdeo Transformer) لمعالجة مهام توليد الفيديو المتنوعة باستخدام نموذج واحد. نُقدّم مُفكّكًا ثلاثي الأبعاد (3D tokenizer) لترميز الفيديو إلى رموز بصرية فضائية-زمنية، ونُقترح طريقة تضمين لنمذجة الرموز البصرية المُخفية، مما يُسهّل التعلّم متعدد المهام. أجرينا تجارب واسعة النطاق لإثبات جودة MAGVIT وكفاءته والمرونة التي يتمتع بها. تُظهر نتائج تجاربنا أن: (i) يتفوّق MAGVIT على أحدث النماذج المُعلَّمة ويُحقّق أفضل قيمة منشورة لمؤشر FVD (Fréchet Video Distance) على ثلاث معايير لتوليد الفيديو، بما في ذلك معيار Kinetics-600 الصعب. (ii) يتفوّق MAGVIT على الطرق الحالية من حيث زمن الاستدلال بمقدار مرّتين على نماذج التشتت (diffusion models)، وبمقدار 60 مرة على النماذج التسلسلية (autoregressive models). (iii) يدعم نموذج MAGVIT الواحد عشرة مهام توليد متنوعة، ويُظهر قدرة على التعميم عبر مقاطع فيديو من مجالات بصرية مختلفة. سيتم الإفراج عن الشفرة المصدرية والنموذج المدرب للجمهور عبر الرابط: https://magvit.cs.cmu.edu.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp