Command Palette
Search for a command to run...
Open-MAGVIT2: مشروع مفتوح المصدر يسعى إلى تمكين توليد الصور التلقائي المتسلسل بشكل شمولي
Open-MAGVIT2: مشروع مفتوح المصدر يسعى إلى تمكين توليد الصور التلقائي المتسلسل بشكل شمولي
Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan
الملخص
نقدّم Open-MAGVIT2، وهي عائلة من نماذج توليد الصور ذاتية التكرار (auto-regressive) تتراوح حجمها بين 300 مليون و1.5 مليار معلمة. يُعد مشروع Open-MAGVIT2 نسخة مفتوحة المصدر للمرشّح (tokenizer) الخاص بـ MAGVIT-v2 من جوجل، والذي يتميّز بكتاب كود ضخم جدًا (أي 2^18 رمزًا)، ويحقق أداءً متميزًا في إعادة البناء (1.17 rFID) على مجموعة بيانات ImageNet بحجم 256×256. بالإضافة إلى ذلك، نستعرض تطبيقاته في النماذج ذاتية التكرار الاعتيادية ونُثبت خصائص قابليتها للتوسع. ولمساعدة النماذج ذاتية التكرار على التنبؤ باستخدام قاموس ضخم جدًا، نُفكّك هذا القاموس إلى جزأين فرعيين بحجمين مختلفين باستخدام تقنية تجزئة الرموز غير المتوازنة (asymmetric token factorization)، ثم نُقدّم مفهوم "التنبؤ بالرمز الفرعي التالي" (next sub-token prediction) لتعزيز التفاعل بين الرموز الفرعية وتحسين جودة التوليد. ونُطلق جميع النماذج والكود المصدري لتشجيع الابتكار والإبداع في مجال توليد الصور البصرية ذاتية التكرار.