2ヶ月前

半教師ありのビデオ行動検出における安定化平均教師法

Kumar, Akash ; Mitra, Sirshapan ; Rawat, Yogesh Singh
半教師ありのビデオ行動検出における安定化平均教師法
要約

本研究では、ビデオアクション検出のための半教師あり学習に焦点を当てています。ビデオアクション検出は分類だけでなく、空間時間的な位置特定も必要であり、限られたラベル量によりモデルが信頼性の低い予測を行う傾向があります。私たちは、改善されかつ時間的に一貫した疑似ラベルを生成するシンプルなエンドツーエンドの教師ベースフレームワークである「安定化平均教師(Stable Mean Teacher)」を提案します。このフレームワークは新しい誤差復元(Error Recovery, EoR)モジュールに依存しており、ラベル付きサンプルでの学生の間違いから学習し、その知識を教師に転送して未ラベルサンプルの疑似ラベルを改善します。さらに、既存の空間時間損失関数は時間的一貫性を考慮せず、時間的な不整合に脆弱です。これを解決するために、私たちは時間的一貫性に焦点を当てたシンプルで新しい制約条件である「ピクセル差分(Difference of Pixels, DoP)」を提案します。これにより、一貫した時間的検出が可能になります。我々は提案手法を4つの異なる空間時間検出ベンチマーク(UCF101-24, JHMDB21, AVA, YouTube-VOS)で評価しました。結果として、UCF101-24では平均23.5%、JHMDB21では16%、AVAでは3.3%のマージンで教師あり基準モデルを超える性能を示しました。また、データのわずか10%と20%を使用することで、それぞれUCF101-24とJHMDB21において教師あり基準モデル(100%のアノテーションで訓練)と競合する性能を達成しています。さらに、大規模データセットへのスケーリング能力についてはAVAで評価し、ビデオオブジェクトセグメンテーションについてはYouTube-VOSで評価を行い、他のビデオ領域におけるタスクへの汎化能力も確認しました。コードおよびモデルは公開されています。