2ヶ月前
弱教師付き検出からの知識蒸留を用いた多ラベル画像分類
Yongcheng Liu; Lu Sheng; Jing Shao; Junjie Yan; Shiming Xiang; Chunhong Pan

要約
多ラベル画像分類は、一般的な視覚理解に向けて基本的かつ挑戦的な課題である。既存の方法では、領域レベルの手がかり(例えば、RoIからの特徴)が多ラベル分類を促進することが示されている。しかし、これらの方法は通常、効果的なオブジェクトレベルの視覚特徴の学習のために煩雑なオブジェクトレベルのアノテーション(すなわち、オブジェクトラベルとバウンディングボックス)を必要とする。本論文では、バウンディングボックスアノテーションなしで弱教師付き検出タスクから知識を抽出することにより、多ラベル分類を向上させる新しいかつ効率的な深層学習フレームワークを提案する。具体的には、画像レベルのアノテーションが与えられた場合、(1) 弱教師付き検出(WSD)モデルを開発し、その後 (2) クラスレベルの予測とオブジェクトRoIのオブジェクトレベルの視覚特徴に基づいてWSDモデルによってガイドされる知識蒸留モジュールを備えたエンドツーエンドの多ラベル画像分類フレームワークを構築する。WSDモデルは教師モデルであり、分類モデルは学生モデルである。このクロスタスク知識蒸留後、分類モデルの性能は大幅に向上し、テストフェーズでWSDモデルを安全に破棄できるため効率性も維持される。大規模データセット2つ(MS-COCOおよびNUS-WIDE)での広範な実験結果から、本フレームワークは性能と効率性において最先端手法を超える優れた成果を達成していることが示された。