منذ 6 أشهر

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu

الملخص

بينما تُعد نماذج اللغة الكبيرة (LLMs) النماذج المهيمنة للمهام الإبداعية في مجال اللغة، إلا أنها لا تحقق نفس الأداء المتميز الذي تحققه نماذج التباعد (diffusion models) في إنشاء الصور والفيديوهات. ولاستخدام فعّال لـ LLMs في التوليد البصري، يُعد المُحوّل البصري (visual tokenizer) عنصرًا حاسمًا، حيث يقوم بتحويل المدخلات من فضاء البكسل إلى رموز منفصلة مناسبة لتعلم نماذج LLM. في هذه الورقة، نقدّم MAGVIT-v2، وهو محوّل فيديو مصمم لإنتاج رموز موجزة وتعبيرية لكل من الفيديوهات والصور باستخدام مفردات رموز مشتركة. وباستخدام هذا المحول الجديد، نُظهر أن نماذج LLM تتفوّق على نماذج التباعد في معايير التوليد القياسية للصور والفيديوهات، بما في ذلك ImageNet وKinetics. علاوة على ذلك، نُثبت أن محولنا يتفوّق على أفضل محول فيديو سابق في مهام إضافيتين: (1) ضغط الفيديو مقارنةً بالكوديك الجديد لل videoc (VCC)، وفقًا لتقييمات بشرية، و(2) تعلّم تمثيلات فعّالة للمهام المتعلقة بالتعرف على الحركات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

منذ 6 أشهر

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu

الملخص

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نماذج اللغة تتفوق على التشتت — التجزئة هي المفتاح للإنشاء البصري

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu

Lijun Yu José Lezama Nitesh B. Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu