كشف العيوب في مقاييس تقييم النماذج الإنشائية وعلاجها غير العادل للنماذج التبادلية

نقوم بدراسة منهجية لعدد واسع من النماذج التوليدية التي تغطي مجموعات بيانات صور متنوعة من حيث المعنى، بهدف فهم وتحسين مستخرجات الميزات والمقاييس المستخدمة لتقييم هذه النماذج. باستخدام أفضل الممارسات في علم النفس الفيزيائي، نقيس إدراك الإنسان لواقعية الصور المولدة من خلال إجراء أكبر تجربة لتقييم النماذج التوليدية حتى الآن، ونجد أن أي مقياس موجود لا يرتبط بشكل قوي بتقييمات البشر. وعند مقارنة 17 مقياسًا حديثًا لتقييم الأداء العام، والدقة، والتنوع، والندرة، والتذكّر في النماذج التوليدية، نكتشف أن الواقعية الحسية الراقية للنماذج التوليدية المبنية على عملية التبديد (Diffusion Models) كما يُقيّمها البشر لا تُعكس في المقاييس الشائعة مثل FID. ولا يمكن تفسير هذا التباين من خلال تنوع العينات المولدة، رغم أن أحد الأسباب الرئيسية هو الاعتماد الزائد على نموذج Inception-V3. ونعالج هذه العيوب من خلال دراسة مستخرجات ميزات بديلة ذاتية التدريب، ونُظهر أن المعلومات الدلالية التي تُشَكِّلها الشبكات الفردية تعتمد بشكل كبير على إجراءات التدريب المستخدمة، كما نثبت أن DINOv2-ViT-L/14 يمكّن من تقييم أعمق وغنيًا للنماذج التوليدية. ثم نستكشف ظاهرة تذكّر البيانات، ونجد أن النماذج التوليدية تُذكّر أمثلة التدريب في مجموعات بيانات بسيطة وأصغر مثل CIFAR10، لكنها لا تفعل ذلك بالضرورة في مجموعات بيانات أكثر تعقيدًا مثل ImageNet. ومع ذلك، تُظهر تجاربنا أن المقاييس الحالية لا تُقيّم تذكّر البيانات بشكل مناسب: لا يوجد أي مقياس من المقاييس المنشورة في الأدبيات قادر على التمييز بين التذكّر وظواهر أخرى مثل التقليل الزائد من التكيف (underfitting) أو تقلص النماذج (mode shrinkage). ولتمكين التطور المستقبلي للنماذج التوليدية وتقييمها، نُطلق جميع مجموعات الصور المولدة، وبيانات التقييم البشرية، بالإضافة إلى مكتبة مرنة لحساب 17 مقياسًا شائعًا باستخدام 9 مشغلات مختلفة (encoders) على الرابط التالي: https://github.com/layer6ai-labs/dgm-eval.