Webly Supervised Image Classification with Self-Contained Confidence

本稿では、インターネットからサンプルをクロールして検索クエリをそのままウェブラベルとして用いることでデータセットを構築するウェブリー監視学習(Webly Supervised Learning, WSL)に焦点を当てる。WSLはデータ収集が迅速かつ低コストである利点を持つ一方で、ウェブラベルに含まれるノイズが画像分類モデルの性能向上を妨げる要因となっている。この問題を緩和するため、最近の研究では、ウェブリー監視損失 $\mathcal{L}_w$ に加えて、モデル自身が予測する仮ラベル(pseudo labels)に基づく自己ラベル監視損失 $\mathcal{L}_s$ が用いられている。ウェブラベルまたは仮ラベルの正しさは、個々のウェブサンプルごとに異なるため、$\mathcal{L}_s$ と $\mathcal{L}_w$ のバランスをサンプル単位で調整することが望ましい。深層ニューラルネットワーク(DNN)が信頼度予測に優れていることに着目し、本研究ではWSLの文脈に適応したモデル不確実性の利用を基に、自己-containedな信頼度(Self-Contained Confidence, SCC)を提案する。このSCCを用いて、$\mathcal{L}_s$ と $\mathcal{L}_w$ のサンプルレベルでのバランスを調整することで、シンプルながら効果的なWSLフレームワークを構築した。さらに、SCCに適した正則化手法の体系的検証を行い、その中で提案するグラフ強化ミックスアップ(graph-enhanced mixup)が、高品質な信頼度を提供する最も効果的な手法であることが明らかになった。提案するWSLフレームワークは、大規模なWSLデータセットであるWebVision-1000およびFood101-Nにおいて、既存の最先端(SOTA)性能を達成した。実装コードは https://github.com/bigvideoresearch/SCC にて公開されている。