HyperAIHyperAI
منذ 2 أشهر

SemiReward: نموذج مكافأة عام للتعلم شبه المشرف عليه

Li, Siyuan ; Jin, Weiyang ; Wang, Zedong ; Wu, Fang ; Liu, Zicheng ; Tan, Cheng ; Li, Stan Z.
SemiReward: نموذج مكافأة عام للتعلم شبه المشرف عليه
الملخص

لقد شهد التعلم شبه المشرف (Semi-supervised Learning - SSL) تقدمًا كبيرًا بفضل العديد من التحسينات في إطار التدريب الذاتي باستخدام العلامات الوهمية (Pseudo Labeling). تحدي رئيسي يكمن في كيفية تمييز العلامات الوهمية عالية الجودة ضد تحيز التأكيد. ومع ذلك، فإن استراتيجيات اختيار العلامات الوهمية الحالية محدودة إما بأنماط محددة مسبقًا أو سياسات معقدة تم تصميمها يدويًا خصيصًا للتصنيف، مما يجعلها غير قادرة على تحقيق العلامات عالية الجودة، والالتقاط السريع، ومرونة المهام بشكل متزامن. لتحقيق هذه الأهداف، نقترح إطار جوائز شبه مشرف (Semi-supervised Reward Framework - SemiReward)، الذي يقوم بتوقع درجات الجوائز لتقييم وتصفية العلامات الوهمية عالية الجودة، وهو قابل للدمج في الطرق الرئيسية لـ SSL في أنواع وسيناريوهات مهمة واسعة. لتخفيض تحيز التأكيد، يتم تدريب SemiReward عبر الإنترنت في مرحلتين باستخدام نموذج المولد واستراتيجية الاستمالة الجزئية. أثبتت التجارب الشاملة التي أجريت على 13 مقاييس قياسية لـ SSL عبر ثلاثة أنماط أن SemiReward يحقق مكاسب أداء كبيرة وأساليب التقاط سريعة أكثر من Pseudo Label و FlexMatch و Free/SoftMatch. يمكن الحصول على الكود والنماذج من https://github.com/Westlake-AI/SemiReward.

SemiReward: نموذج مكافأة عام للتعلم شبه المشرف عليه | أحدث الأوراق البحثية | HyperAI