منذ 6 أشهر

الملخص

الاعتقاد السائد يرى أن النماذج التلقائية التوليدية للصور تُصحب عادةً برموز كمّية مُتجزئة. ونلاحظ أنه بينما يمكن لفضاء قيم منفصلة أن يسهل تمثيل توزيعات فئوية، فإنه ليس شرطًا ضروريًا للنمذجة التلقائية. في هذه الدراسة، نقترح تمثيل توزيع الاحتمال لكل رمز باستخدام عملية انتشار (diffusion)، مما يسمح لنا بتطبيق النماذج التلقائية في فضاءات ذات قيم مستمرة. بدلًا من استخدام دالة خسارة التباعد الكتلي الفئوي (categorical cross-entropy)، نُعرّف دالة خسارة انتشار (Diffusion Loss) لتمثيل توزيع الاحتمال لكل رمز. يُلغِّ هذا النهج الحاجة إلى مُحلِّلات رموز ذات قيم منفصلة. وقد قمنا بتقييم فعالية هذا النهج في مجموعة واسعة من الحالات، بما في ذلك النماذج التلقائية القياسية ومتغيرات النماذج التلقائية المُقنَّعة المعممة (MAR). وبإزالة التكميم المتجزئ (vector quantization)، تحقق مولّدات الصور لدينا نتائج قوية مع الاستفادة من الميزة السرعة المميزة للنمذجة التسلسلية. نأمل أن تحفّز هذه الدراسة استخدام التوليد التلقائي في مجالات وتطبيقات أخرى ذات قيم مستمرة. الكود متاح عبر: https://github.com/LTH14/mar.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار