النمذجة التوليدية المستندة إلى الدرجات من خلال المعادلات التفاضلية العشوائية

إنشاء ضجيج من البيانات أمر سهل؛ أما إنشاء بيانات من ضجيج فهذا هو النمذجة التوليدية. نقدّم معادلة تفاضلية عشوائية (SDE) تحوّل تدريجيًا توزيع البيانات المعقد إلى توزيع سابق معروف من خلال إدخال ضجيج بطيء، ونقدّم أيضًا معادلة عكسية زمنيًا تعيد تحويل التوزيع السابق إلى توزيع البيانات عن طريق إزالة الضجيج تدريجيًا. وتكمن الحالة الحاسمة هنا في أن المعادلة العكسية تعتمد فقط على حقل الميل الزمني (المعروف أيضًا بـ "الScore") لتوزيع البيانات المُضجّجة. وباستغلال التقدم في النمذجة التوليدية القائمة على الـ "Score"، يمكننا تقدير هذه القيم بدقة باستخدام الشبكات العصبية، واستخدام حلّالات عددية للمعادلات التفاضلية العشوائية لإنتاج عينات. نُظهر أن هذا الإطار يشمل الطرق السابقة في النمذجة التوليدية القائمة على الـ "Score" والنمذجة الاحتمالية الانسيابية، مما يتيح إجراءات عينات جديدة وقدرات نمذجة متطورة. وبشكل خاص، نقدّم إطارًا مبنيًا على "المُقدّر-المُصحّح" لتصحيح الأخطاء الناتجة عن تطوير المعادلة العكسية الزمنية عند تجزئتها. كما نستنتج معادلة تفاضلية عادية (Neural ODE) مكافئة تُولّد عينات من نفس التوزيع الذي تُولّده SDE، لكنها تتيح أيضًا حساب الاحتمال الدقيق (likelihood) وتحسين كفاءة العينات. علاوةً على ذلك، نقدّم طريقة جديدة لحل المشكلات العكسية باستخدام النماذج القائمة على الـ "Score"، كما أُظهرت تجربة مثيرة في التوليد الشرطي بالفئة، وإعادة تعبئة الصور، والتلوين. وباستخدام تحسينات معمّقة في البنية المعمارية، نحقق أداءً قياسيًا في توليد الصور غير المشروطة على مجموعة بيانات CIFAR-10، بتحصيل Score من نوع Inception بلغ 9.89، وقيمة FID بلغت 2.20، واحتمال دقيق بلغ 2.99 بت/بعد، ونُظهر لأول مرة توليد صور بجودة عالية بحجم 1024×1024 باستخدام نموذج توليد مبني على الـ "Score".