HyperAIHyperAI

Command Palette

Search for a command to run...

GIVT: نماذج تحويلية توليدية ذات مفردات غير محدودة

Michael Tschannen Cian Eastwood Fabian Mentzer

الملخص

نُقدِّم نماذج التحويلات ذات المفردات اللانهائية التوليدية (GIVT)، التي تُولِّد تسلسلاً من المتجهات ذات القيم الحقيقية، بدلًا من الرموز المنفصلة من مفردات منتهية. ولتحقيق ذلك، نقترح تعديلين مفاجئين ومبسطين على نماذج التحويلات ذات الكودر الوحيد: 1) في المدخلات، نستبدل جدول البحث عن المفردات المنتهية بتحويل خطي للمتجهات المدخلة؛ و2) في المخرجات، نستبدل تنبؤات الـ logits (التي تُسَمَّى عادةً توزيعًا متعدد القيم) بمعاملات نموذج مزيج غاوسي متعدد المتغيرات. مستوحى من نموذج توليد الصور في VQ-GAN وMaskGIT، حيث تُستخدم نماذج التحويلات لتمثيل التسلسلات اللاتناهية المنفصلة لنموذج VQ-VAE، نستخدم GIVT لتمثيل التسلسلات اللاتناهية ذات القيم الحقيقية غير المُقَيَّدة لنظام βββ-VAE. وفي توليد الصور بشروط فئات معينة، تتفوّق GIVT على VQ-GAN (والمُحسَّنات المُطوَّرة له) وكذلك على MaskGIT، وتُحقِّق أداءً يُنافس نماذج التوسع اللاتيني الحديثة. وأخيرًا، نحصل على نتائج قوية خارج مجال توليد الصور عند تطبيق GIVT على مهام التجزئة البانوبتيك وتقدير العمق، باستخدام نسخة مُعدَّلة من إطار UViM تعتمد على نموذج VAE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp