HyperAIHyperAI

Command Palette

Search for a command to run...

VideoGPT: إنشاء الفيديو باستخدام VQ-VAE و Transformers

Wilson Yan Yunzhi Zhang Pieter Abbeel Aravind Srinivas

الملخص

نقدّم VideoGPT: وهي بنية مفاهيمية بسيطة لتوسيع نماذج التوليد القائمة على الاحتمال (likelihood-based generative modeling) لتشمل الفيديوهات الطبيعية. تعتمد VideoGPT على نموذج VQ-VAE الذي يتعلم تمثيلات مُتَقَطَّعة (discrete latent) منخفضة التردد للفيديو الخام من خلال استخدام التحويلات الثلاثية الأبعاد (3D convolutions) والانتباه المحوري (axial self-attention). ثم تُستخدم بنية مشابهة لنموذج GPT لتمثيل هذه التمثيلات المُتَقَطَّعة بشكل تلقائي (autoregressively) باستخدام ترميزات الموضع الفراغي الزمني (spatio-temporal position encodings). وعلى الرغم من البساطة في الصياغة وسهولة التدريب، فإن بنية النموذج قادرة على إنتاج عينات تنافس أحدث النماذج القائمة على GAN في مجال توليد الفيديوهات على مجموعة بيانات BAIR Robot، كما تُنتج فيديوهات طبيعية عالية الدقة من مجموعتي بيانات UCF-101 وTumbler GIF Dataset (TGIF). نأمل أن تُعد البنية المقترحة مرجعًا قابلاً للتكرار لتنفيذ نماذج توليد الفيديو القائمة على المحولات (transformer) بطريقة مبسطة وحد أدنى. يمكن الاطلاع على العينات والكود عبر الرابط: https://wilson1yan.github.io/videogpt/index.html


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp