Webly Supervised Image Classification mit selbstständigem Konfidenzmaß

Diese Arbeit konzentriert sich auf webly supervised learning (WSL), bei dem Datensätze durch Crawling von Beispielen aus dem Internet erstellt werden, wobei Suchanfragen direkt als Web-Labels verwendet werden. Obwohl WSL von einer schnellen und kostengünstigen Datensammlung profitiert, behindern Rauschen in den Web-Labels eine bessere Leistung von Bildklassifizierungsmodellen. Um dieses Problem zu mildern, werden in jüngeren Arbeiten neben dem webly supervised Loss $\mathcal{L}_w$ auch selbst-label supervised Losses $\mathcal{L}_s$ eingesetzt, die auf Pseudolabels basieren, die vom Modell selbst vorhergesagt werden. Da die Richtigkeit von Web-Labels oder Pseudolabels für jedes einzelne Web-Beispiel in der Regel unterschiedlich ist, ist es wünschenswert, das Gleichgewicht zwischen $\mathcal{L}_s$ und $\mathcal{L}_w$ auf der Ebene einzelner Beispiele dynamisch anzupassen. Inspiriert durch die Fähigkeit von Deep Neural Networks (DNNs) bei der Schätzung von Vertrauenswerten, führen wir hier die sogenannte Self-Contained Confidence (SCC) ein, indem wir die Modellunsicherheit für den WSL-Ansatz anpassen, und nutzen SCC, um $\mathcal{L}_s$ und $\mathcal{L}_w$ sample-wise zu balancieren. Dadurch wird ein einfaches, jedoch effektives WSL-Framework vorgestellt. Eine Reihe von SCC-freundlichen Regularisierungsansätzen wird untersucht, wobei der vorgeschlagene graphenverstärkte Mixup als wirksamster Ansatz sich als besonders gut geeignet erweist, hochwertige Vertrauenswerte zu generieren und damit das Framework zu stärken. Das vorgeschlagene WSL-Framework erreicht auf zwei großen WSL-Datensätzen, WebVision-1000 und Food101-N, die derzeit besten Ergebnisse. Der Quellcode ist unter https://github.com/bigvideoresearch/SCC verfügbar.