VideoGPT: إنشاء الفيديو باستخدام VQ-VAE و Transformers

نقدّم VideoGPT: وهي بنية مفاهيمية بسيطة لتوسيع نماذج التوليد القائمة على الاحتمال (likelihood-based generative modeling) لتشمل الفيديوهات الطبيعية. تعتمد VideoGPT على نموذج VQ-VAE الذي يتعلم تمثيلات مُتَقَطَّعة (discrete latent) منخفضة التردد للفيديو الخام من خلال استخدام التحويلات الثلاثية الأبعاد (3D convolutions) والانتباه المحوري (axial self-attention). ثم تُستخدم بنية مشابهة لنموذج GPT لتمثيل هذه التمثيلات المُتَقَطَّعة بشكل تلقائي (autoregressively) باستخدام ترميزات الموضع الفراغي الزمني (spatio-temporal position encodings). وعلى الرغم من البساطة في الصياغة وسهولة التدريب، فإن بنية النموذج قادرة على إنتاج عينات تنافس أحدث النماذج القائمة على GAN في مجال توليد الفيديوهات على مجموعة بيانات BAIR Robot، كما تُنتج فيديوهات طبيعية عالية الدقة من مجموعتي بيانات UCF-101 وTumbler GIF Dataset (TGIF). نأمل أن تُعد البنية المقترحة مرجعًا قابلاً للتكرار لتنفيذ نماذج توليد الفيديو القائمة على المحولات (transformer) بطريقة مبسطة وحد أدنى. يمكن الاطلاع على العينات والكود عبر الرابط: https://wilson1yan.github.io/videogpt/index.html