نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

بينما تُعد نماذج اللغة الكبيرة (LLMs) النماذج المهيمنة للمهام الإبداعية في مجال اللغة، إلا أنها لا تحقق نفس الأداء المتميز الذي تحققه نماذج التباعد (diffusion models) في إنشاء الصور والفيديوهات. ولاستخدام فعّال لـ LLMs في التوليد البصري، يُعد المُحوّل البصري (visual tokenizer) عنصرًا حاسمًا، حيث يقوم بتحويل المدخلات من فضاء البكسل إلى رموز منفصلة مناسبة لتعلم نماذج LLM. في هذه الورقة، نقدّم MAGVIT-v2، وهو محوّل فيديو مصمم لإنتاج رموز موجزة وتعبيرية لكل من الفيديوهات والصور باستخدام مفردات رموز مشتركة. وباستخدام هذا المحول الجديد، نُظهر أن نماذج LLM تتفوّق على نماذج التباعد في معايير التوليد القياسية للصور والفيديوهات، بما في ذلك ImageNet وKinetics. علاوة على ذلك، نُثبت أن محولنا يتفوّق على أفضل محول فيديو سابق في مهام إضافيتين: (1) ضغط الفيديو مقارنةً بالكوديك الجديد لل videoc (VCC)، وفقًا لتقييمات بشرية، و(2) تعلّم تمثيلات فعّالة للمهام المتعلقة بالتعرف على الحركات.