الاستيعاب التلقائي للصورة باستخدام التكميم المتراكم

بالنسبة للنمذجة التلقائية التكرارية (AR) للصور عالية الدقة، يُمثل التكميم المتجهي (VQ) الصورة كسلسلة من الرموز المنفصلة. ويعتبر طول السلسلة القصير أمرًا مهمًا بالنسبة لنموذج AR لتقليل التكاليف الحسابية المرتبطة بمراعاة التفاعلات على المدى الطويل بين الرموز. ومع ذلك، نُقدّم افتراضًا بأن النماذج السابقة للتكميم المتجهي لا يمكنها تقليل طول سلسلة الرموز مع إنتاج صور عالية الولادة في الوقت نفسه، من حيث التوازن بين معدل النقل والانحراف. في هذه الدراسة، نقترح إطارًا مكونًا من مرحلتين، يتضمن نموذج VAE المُكمَّم بالباقية (RQ-VAE) ونموذج RQ-Transformer، لتمكين إنتاج صور عالية الدقة بشكل فعّال. وبفرض حجم دفتر رموز ثابت، يمكن لـ RQ-VAE تقريب خريطة الميزات للصورة بدقة عالية، وتمثيل الصورة كخريطة متراكبة من الرموز المنفصلة. ثم يتعلم نموذج RQ-Transformer التنبؤ بمتجه الميزة المُكمَّم في الموقع التالي من خلال التنبؤ بالطبقة التالية من الرموز. وبفضل التقريب الدقيق الذي يوفره RQ-VAE، يمكننا تمثيل صورة بحجم 256×256 كخريطة ميزات بدقة 8×8، مما يمكّن نموذج RQ-Transformer من تقليل التكاليف الحسابية بشكل فعّال. في النتيجة، يتفوق إطارنا على النماذج التلقائية التكرارية الحالية في مجموعة متنوعة من المعايير المعيارية للإنتاج الصوري غير الشرطي والشرطي. كما يتميز نهجنا بسرعة عينة أسرع بشكل ملحوظ مقارنة بالنماذج التلقائية التكرارية السابقة، مما يسمح بإنتاج صور عالية الجودة.