نماذج التمايز المعززة بالاسترجاع التصنيفي للتعلم من التصنيفات الضوضائية

التعلم من العلامات الضوضائية يُعد مشكلة مهمة ومستمرة في تعلم الآلة، خاصة في التطبيقات الواقعية. أحد الخطوط الرئيسية في الأبحاث يركّز على تعلّم "محوّل العلامات" (label corrector) لتنقية العلامات الضوضائية المحتملة. ومع ذلك، تعتمد هذه الطرق عادةً على افتراضات صارمة، وتقع في حدود أنواع معينة من ضوضاء العلامات. في هذه الورقة، نعيد صياغة مشكلة ضوضاء العلامات من منظور نموذج توليد (generative-model)، أي أن العلامات تُولَّد عن طريق تحسين تدريجي لتخمين عشوائي أولي. يتيح هذا المنظور الجديد استخدام النماذج القوية الحالية من نوع النماذج التوليدية التفاضلية (diffusion models) بشكل سلس لتعلّم العملية التوليدية العشوائية. بمجرد نمذجة عدم اليقين التوليدي، يمكننا إجراء استنتاج تصنيف باستخدام تقدير الاحتمال الأقصى (maximum likelihood estimation) للعلامات. ولتقليل تأثير العلامات الضوضائية، نقترح نموذج التوليد التفاضلي المُعزّز بالاسترجاع العلّامي (LRA)، والذي يستفيد من اتساق الجيران لبناء علامات افتراضية نظيفة بشكل فعّال لتدريب النموذج التفاضلي. يتميّز نموذجنا بالمرونة والعمومية، مما يسمح بدمج سهل لمختلف أنواع المعلومات الشرطية، مثل استخدام نماذج مُدرّبة مسبقًا، لتعزيز أداء النموذج أكثر. أجرينا تجارب واسعة لتقييم الأداء. حقق نموذجنا نتائج جديدة متفوّقة (SOTA) على جميع مجموعات البيانات القياسية الواقعية. وبشكل ملحوظ، وباستخدام المعلومات الشرطية من النموذج القوي CLIP، يمكن لطرقنا رفع دقة النموذج الحالي المتفوّق بنسبة 10-20 نقطة مئوية في العديد من الحالات.