HyperAIHyperAI
منذ 3 أشهر

GIVT: نماذج تحويلية توليدية ذات مفردات غير محدودة

Michael Tschannen, Cian Eastwood, Fabian Mentzer
GIVT: نماذج تحويلية توليدية ذات مفردات غير محدودة
الملخص

نُقدِّم نماذج التحويلات ذات المفردات اللانهائية التوليدية (GIVT)، التي تُولِّد تسلسلاً من المتجهات ذات القيم الحقيقية، بدلًا من الرموز المنفصلة من مفردات منتهية. ولتحقيق ذلك، نقترح تعديلين مفاجئين ومبسطين على نماذج التحويلات ذات الكودر الوحيد: 1) في المدخلات، نستبدل جدول البحث عن المفردات المنتهية بتحويل خطي للمتجهات المدخلة؛ و2) في المخرجات، نستبدل تنبؤات الـ logits (التي تُسَمَّى عادةً توزيعًا متعدد القيم) بمعاملات نموذج مزيج غاوسي متعدد المتغيرات. مستوحى من نموذج توليد الصور في VQ-GAN وMaskGIT، حيث تُستخدم نماذج التحويلات لتمثيل التسلسلات اللاتناهية المنفصلة لنموذج VQ-VAE، نستخدم GIVT لتمثيل التسلسلات اللاتناهية ذات القيم الحقيقية غير المُقَيَّدة لنظام $β$-VAE. وفي توليد الصور بشروط فئات معينة، تتفوّق GIVT على VQ-GAN (والمُحسَّنات المُطوَّرة له) وكذلك على MaskGIT، وتُحقِّق أداءً يُنافس نماذج التوسع اللاتيني الحديثة. وأخيرًا، نحصل على نتائج قوية خارج مجال توليد الصور عند تطبيق GIVT على مهام التجزئة البانوبتيك وتقدير العمق، باستخدام نسخة مُعدَّلة من إطار UViM تعتمد على نموذج VAE.