PseCo:半教師付きオブジェクト検出のための疑似ラベル付けと一貫性学習

本稿では、半教師あり物体検出(Semi-Supervised Object Detection: SSOD)における2つの主要な技術、すなわち擬似ラベル付け(pseudo labeling)と一貫性学習(consistency training)に焦点を当てる。我々は、これらの技術が現在、物体検出における重要な性質を無視していることに着目し、未ラベルデータに対する効率的な学習を阻害していることを明らかにする。具体的には、擬似ラベル付けに関しては、既存の手法は分類スコアにのみ注目しているが、擬似ボックスの位置推定精度を保証できていない。一方、一貫性学習においては、広く採用されているランダムリサイズトレーニングはラベルレベルの一貫性のみを考慮しており、スケール不変性を確保する上で重要な特徴レベルの一貫性を無視している。このノイズを含む擬似ボックスに起因する問題に対処するため、予測をもとにラベルを割り当てる予測誘導型ラベル割当(Prediction-guided Label Assignment: PLA)と、正例提案の回帰一貫性を活用して擬似ボックスの位置精度を反映する正例提案一貫性投票(Positive-proposal Consistency Voting: PCV)を組み合わせた「ノイズを含む擬似ボックス学習(Noisy Pseudo box Learning: NPL)」を提案する。PLAはモデルの予測に基づいてラベルを割り当てるため、粗い擬似ボックスに対しても堅牢である。一方、PCVは正例提案の回帰一貫性を利用して、擬似ボックスの位置精度を間接的に評価する。さらに、一貫性学習の面では、ラベルレベルと特徴レベルの両方の一貫性を実現する「マルチビュー不変スケール学習(Multi-view Scale-invariant Learning: MSL)」を提案する。特徴レベルの一貫性は、同一コンテンツだが異なるスケールの2枚の画像間で特徴ピラミッドをシフト対応させる手法によって実現される。COCOベンチマーク上での実験結果から、本手法(PSEudo labeling and COnsistency training: PseCo)は、ラベル付きデータ比率が1%、5%、10%の各条件下で、最先端手法(Soft Teacher)をそれぞれ2.0、1.8、2.0ポイント上回る性能を達成した。また、SSODにおける学習効率も顕著に向上し、最先端手法の学習時間を半減しつつ、さらに優れた性能を達成している。実装コードは以下のURLで公開されている:https://github.com/ligang-cs/PseCo。