HyperAIHyperAI

Command Palette

Search for a command to run...

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

الملخص

بينما تُعد نماذج اللغة الكبيرة (LLMs) النماذج المهيمنة للمهام الإبداعية في مجال اللغة، إلا أنها لا تحقق نفس الأداء المتميز الذي تحققه نماذج التباعد (diffusion models) في إنشاء الصور والفيديوهات. ولاستخدام فعّال لـ LLMs في التوليد البصري، يُعد المُحوّل البصري (visual tokenizer) عنصرًا حاسمًا، حيث يقوم بتحويل المدخلات من فضاء البكسل إلى رموز منفصلة مناسبة لتعلم نماذج LLM. في هذه الورقة، نقدّم MAGVIT-v2، وهو محوّل فيديو مصمم لإنتاج رموز موجزة وتعبيرية لكل من الفيديوهات والصور باستخدام مفردات رموز مشتركة. وباستخدام هذا المحول الجديد، نُظهر أن نماذج LLM تتفوّق على نماذج التباعد في معايير التوليد القياسية للصور والفيديوهات، بما في ذلك ImageNet وKinetics. علاوة على ذلك، نُثبت أن محولنا يتفوّق على أفضل محول فيديو سابق في مهام إضافيتين: (1) ضغط الفيديو مقارنةً بالكوديك الجديد لل videoc (VCC)، وفقًا لتقييمات بشرية، و(2) تعلّم تمثيلات فعّالة للمهام المتعلقة بالتعرف على الحركات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp