HyperAIHyperAI

Command Palette

Search for a command to run...

Open-MAGVIT2: مشروع مفتوح المصدر يسعى إلى تمكين توليد الصور التلقائي المتسلسل بشكل شمولي

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

الملخص

نقدّم Open-MAGVIT2، وهي عائلة من نماذج توليد الصور ذاتية التكرار (auto-regressive) تتراوح حجمها بين 300 مليون و1.5 مليار معلمة. يُعد مشروع Open-MAGVIT2 نسخة مفتوحة المصدر للمرشّح (tokenizer) الخاص بـ MAGVIT-v2 من جوجل، والذي يتميّز بكتاب كود ضخم جدًا (أي 2^18 رمزًا)، ويحقق أداءً متميزًا في إعادة البناء (1.17 rFID) على مجموعة بيانات ImageNet بحجم 256×256. بالإضافة إلى ذلك، نستعرض تطبيقاته في النماذج ذاتية التكرار الاعتيادية ونُثبت خصائص قابليتها للتوسع. ولمساعدة النماذج ذاتية التكرار على التنبؤ باستخدام قاموس ضخم جدًا، نُفكّك هذا القاموس إلى جزأين فرعيين بحجمين مختلفين باستخدام تقنية تجزئة الرموز غير المتوازنة (asymmetric token factorization)، ثم نُقدّم مفهوم "التنبؤ بالرمز الفرعي التالي" (next sub-token prediction) لتعزيز التفاعل بين الرموز الفرعية وتحسين جودة التوليد. ونُطلق جميع النماذج والكود المصدري لتشجيع الابتكار والإبداع في مجال توليد الصور البصرية ذاتية التكرار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp