الإنشاء التلقائي للصور دون كمّية متجهة

الاعتقاد السائد يرى أن النماذج التلقائية التوليدية للصور تُصحب عادةً برموز كمّية مُتجزئة. ونلاحظ أنه بينما يمكن لفضاء قيم منفصلة أن يسهل تمثيل توزيعات فئوية، فإنه ليس شرطًا ضروريًا للنمذجة التلقائية. في هذه الدراسة، نقترح تمثيل توزيع الاحتمال لكل رمز باستخدام عملية انتشار (diffusion)، مما يسمح لنا بتطبيق النماذج التلقائية في فضاءات ذات قيم مستمرة. بدلًا من استخدام دالة خسارة التباعد الكتلي الفئوي (categorical cross-entropy)، نُعرّف دالة خسارة انتشار (Diffusion Loss) لتمثيل توزيع الاحتمال لكل رمز. يُلغِّ هذا النهج الحاجة إلى مُحلِّلات رموز ذات قيم منفصلة. وقد قمنا بتقييم فعالية هذا النهج في مجموعة واسعة من الحالات، بما في ذلك النماذج التلقائية القياسية ومتغيرات النماذج التلقائية المُقنَّعة المعممة (MAR). وبإزالة التكميم المتجزئ (vector quantization)، تحقق مولّدات الصور لدينا نتائج قوية مع الاستفادة من الميزة السرعة المميزة للنمذجة التسلسلية. نأمل أن تحفّز هذه الدراسة استخدام التوليد التلقائي في مجالات وتطبيقات أخرى ذات قيم مستمرة. الكود متاح عبر: https://github.com/LTH14/mar.