التصنيف الصوري المُشرف عليه عبر الويب باستخدام الثقة الذاتية المُحتواة

يركز هذا البحث على التعلم المراقب الويبّي (WSL)، حيث يتم بناء المجموعات البيانات من خلال استكشاف العينات من الإنترنت واستخدام استعلامات البحث مباشرةً كتسميات ويب. وعلى الرغم من أن WSL يستفيد من جمع البيانات السريع والمنخفض التكلفة، إلا أن الضوضاء الموجودة في التسميات الويبية تعيق تحسين أداء نموذج تصنيف الصور. ولتخفيف هذه المشكلة، تم في الدراسات الحديثة استخدام خسارة التسمية الذاتية المراقبة $\mathcal{L}_s$ جنبًا إلى جنب مع خسارة التعلم المراقب الويبّي $\mathcal{L}_w$. تعتمد $\mathcal{L}_s$ على التسميات الوهمية (Pseudo Labels) التي يتنبأ بها النموذج نفسه. وبما أن صحة التسمية الويبية أو التسمية الوهمية غالبًا ما تكون محددة لكل عينة ويب على حدة، فمن المرغوب فيه تعديل التوازن بين $\mathcal{L}_s$ و$\mathcal{L}_w$ على مستوى كل عينة. مستلهمين من قدرة الشبكات العصبية العميقة (DNNs) في تنبؤ الثقة، نُقدّم مفهوم "الثقة المحتواة ذاتيًا" (SCC) من خلال تكييف عدم اليقين في النموذج في سياق WSL، ونستخدمه لتوازن عينات $\mathcal{L}_s$ و$\mathcal{L}_w$ بشكل فردي. وبالتالي، تم اقتراح إطار عمل بسيط وفعّال لـ WSL. وتم دراسة سلسلة من الطرق الت régularization المتوافقة مع SCC، حيث يُعدّ المزيج المُعزّز بالرسم البياني (graph-enhanced mixup) الذي نقترحه هو الأكثر فعالية في توفير قيم ثقة عالية لتعزيز إطارنا. وقد حقق الإطار المقترح نتائج منافسة على أعلى المستويات (state-of-the-art) على مجموعتي بيانات ويب واسعتين النطاق: WebVision-1000 وFood101-N. يمكن الوصول إلى الكود عبر الرابط: https://github.com/bigvideoresearch/SCC.