DisCo-Diff: تحسين نماذج الت(diffusion) المستمرة باستخدام متغيرات مُتقطعة

نموذج التوزيع (DMs) قد ثار الثورة في التعلم التوليدي. إذ تستخدم عملية التوزيع لترميز البيانات إلى توزيع جاوسي بسيط. ومع ذلك، يُعدّ ترميز توزيع بيانات معقد، وقد يكون متعدد النماذج، إلى توزيع جاوسي مستمر واحد تمثيلًا لمشكلة تعلّم غير ضرورية صعبة. نقترح نماذج متغيرات مُستترة منفصلة-مستمرة لنموذج التوزيع (DisCo-Diff) لتقليل تعقيد هذه المهمة من خلال إدخال متغيرات مُستترة منفصلة مكملة. نُعزز نماذج DM بمتغيرات مُستترة منفصلة قابلة للتعلم، يتم استخلاصها باستخدام مشغل (encoder)، ونُدرّب نموذج DM والمشغل معًا في نموذج واحد. لا يعتمد DisCo-Diff على شبكات مُدرّبة مسبقًا، مما يجعل الإطار قابلاً للتطبيق بشكل عام. تُبسط المتغيرات المستترة المنفصلة بشكل كبير عملية تعلّم خريطة التحويل من الضوضاء إلى البيانات في نموذج DM من خلال تقليل انحناء المعادلة التفاضلية العادية (ODE) التوليدية. كما يُستخدم نموذج مُتسلسل ذاتي (autoregressive transformer) لتمثيل توزيع المتغيرات المستترة المنفصلة، وهي خطوة بسيطة نظرًا لأن DisCo-Diff يتطلب عددًا قليلاً من المتغيرات المستترة ذات مجموعات رموز صغيرة. وقد قمنا بتحقق من أداء DisCo-Diff على بيانات تجريبية، وعدد من مهام توليد الصور، بالإضافة إلى تثبيت الجزيئات (molecular docking)، ووجدنا أن إدخال المتغيرات المستترة المنفصلة يُحسّن أداء النموذج بشكل متسق. على سبيل المثال، حقق DisCo-Diff أداءً متقدمًا على مستوى الدولة (state-of-the-art) في قياسات FID على مجموعات بيانات ImageNet-64/128 بشروط الفئة باستخدام مُولّد المعادلات التفاضلية العادية (ODE sampler).