HyperAIHyperAI
منذ 8 أيام

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري
الملخص

بينما تُعد نماذج اللغة الكبيرة (LLMs) النماذج المهيمنة للمهام الإبداعية في مجال اللغة، إلا أنها لا تحقق نفس الأداء المتميز الذي تحققه نماذج التباعد (diffusion models) في إنشاء الصور والفيديوهات. ولاستخدام فعّال لـ LLMs في التوليد البصري، يُعد المُحوّل البصري (visual tokenizer) عنصرًا حاسمًا، حيث يقوم بتحويل المدخلات من فضاء البكسل إلى رموز منفصلة مناسبة لتعلم نماذج LLM. في هذه الورقة، نقدّم MAGVIT-v2، وهو محوّل فيديو مصمم لإنتاج رموز موجزة وتعبيرية لكل من الفيديوهات والصور باستخدام مفردات رموز مشتركة. وباستخدام هذا المحول الجديد، نُظهر أن نماذج LLM تتفوّق على نماذج التباعد في معايير التوليد القياسية للصور والفيديوهات، بما في ذلك ImageNet وKinetics. علاوة على ذلك، نُثبت أن محولنا يتفوّق على أفضل محول فيديو سابق في مهام إضافيتين: (1) ضغط الفيديو مقارنةً بالكوديك الجديد لل videoc (VCC)، وفقًا لتقييمات بشرية، و(2) تعلّم تمثيلات فعّالة للمهام المتعلقة بالتعرف على الحركات.

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري | أحدث الأوراق البحثية | HyperAI