
要約
ウェブデータからの学習は、近年多くの研究者の関心を集めています。しかし、クロールされたウェブ画像には通常、ラベルノイズと背景ノイズの2種類のノイズが存在し、これらを効果的に利用する上で追加の困難をもたらします。既存の方法の多くは、人間の監督に依存するか、背景ノイズを無視しています。本論文では、クリーンな画像なしでこれらの2つのタイプのノイズを同時に処理できる新しい手法を提案します。特に、同じカテゴリから抽出したROI(つまり、画像とその領域提案)をバッグにグループ化するマルチインスタンス学習の枠組みに基づいて手法を定式化しました。各バッグ内のROIには、最寄りのクラスタの代表的/識別的スコアに基づいて異なる重みが割り当てられます。ここで、クラスタとそのスコアは我々が設計したメモリーモジュールを通じて得られます。我々のメモリーモジュールは分類モジュールと自然に統合でき、エンドツーエンドで学習可能なシステムを実現します。4つのベンチマークデータセットでの広範な実験により、本手法の有効性が示されています。