الانعكاس المقنع محليًا للنماذج التلقائية

النماذج التوليدية عالية الأبعاد لها تطبيقات متعددة، منها ضغط الصور، وإنشاء المحتوى متعدد الوسائط، وكشف الشذوذ، وتمام البيانات. تُعد النماذج الحالية الأفضل في تقدير الصور الطبيعية من نوعية التوليد التسلسلي (autoregressive)، حيث تقوم بتفكيك التوزيع المشترك على البكسلات إلى جداء لمشتقات شرطية يتم تمثيلها باستخدام شبكة عصبية عميقة، مثل الشبكة العصبية التلافيفية (convolutional neural network)، على سبيل المثال PixelCNN. ومع ذلك، فإن نماذج PixelCNN تُعدّ فقط تفكيكًا واحدًا للتوزيع المشترك، ويكون ترتيب التوليد الفعّال فقط واحدًا. وبما أن هذه النماذج لا تستطيع استغلال جزء كبير من السياق المُلاحظ في المهام مثل إكمال الصور، فإننا نقدم في هذا العمل LMConv: تعديل بسيط على التلافيف ثنائي الأبعاد القياسي، يسمح بتطبيق أقنعة متعددة بشكل عشوائي على الأوزان في كل موقع ضمن الصورة. وباستخدام LMConv، نتعلم مجموعة من مقدّرات التوزيع التي تشترك في المعاملات ولكنها تختلف في ترتيب التوليد، مما يؤدي إلى تحسين الأداء في تقدير كثافة الصورة بأكملها (2.89 بتًا لكل بكسل على CIFAR10 غير المشروطة)، بالإضافة إلى إكمال صور متناسقة على المستوى العام. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://ajayjain.github.io/lmconv.