النماذج الاحتمالية للتوزيع التدريجي

أظهرت النماذج التوليدية القائمة على التشتت قدرةً على إنتاج صور مبهرة من حيث الإدراك، ولكن هل يمكنها أيضًا أن تكون نماذج فعالة من حيث الاحتمال؟ نرد على هذا السؤال بالإيجاب، ونقدم عائلة من النماذج التوليدية القائمة على التشتت التي تحقق أفضل النتائج في مجال تقدير كثافة الصور القياسية. على عكس النماذج التوليدية الأخرى القائمة على التشتت، يتيح لنا نهجنا تحسين جدول الضوضاء بشكل فعّال جنبًا إلى جنب مع بقية مكونات النموذج. نوضح أن الحد الأدنى التبايني (VLB) يتبسط إلى تعبير مختصر جدًا يعتمد على نسبة الإشارة إلى الضوضاء للبيانات المشتتة، مما يعزز فهمنا النظري لهذه الفئة من النماذج. وباستخدام هذا التحقيق، نثبت معادلة بين عدة نماذج تم اقتراحها في الأدبيات العلمية. علاوةً على ذلك، نُظهر أن الحد الأدنى التبايني المستمر الزمن يظل ثابتًا بالنسبة لجدول الضوضاء، باستثناء نسبة الإشارة إلى الضوضاء عند نقاط النهاية. هذا يمكّننا من تعلُّم جدول ضوضاء يقلل من التباين في مُقدِّر VLB الناتج، مما يؤدي إلى تحسين سرعة التحسين. وبدمج هذه التطورات مع تحسينات في البنية المعمارية، نحقق أفضل النتائج في تقييمات كثافة الصور، ونتفوق على النماذج التوليدية التسلسلية التي سيطرت على هذه المعايير لسنوات عديدة، مع تحسينات كبيرة في سرعة التحسين في كثير من الأحيان. بالإضافة إلى ذلك، نُظهر كيف يمكن استخدام النموذج كجزء من نظام ضغط "البتات العائدة" (bits-back)، ونُظهر معدلات ضغط بدون فقدان تقترب من الحد الأقصى النظري. الكود متوفر على: https://github.com/google-research/vdm.