8ヶ月前

概要

本研究では、ラベル付きデータとラベルなしデータの両方を活用するビデオアクション検出の半教師あり学習に焦点を当てています。私たちは、ラベルなしデータを効果的に利用する単純なエンドツーエンドの一貫性に基づくアプローチを提案します。ビデオアクション検出には、アクションクラスの予測だけでなく、空間時間的なアクションの位置特定も必要です。したがって、分類の一貫性と空間時間的一貫性という2つの制約条件について調査を行いました。ビデオ内における主導的な背景や静止領域の存在は、アクション検出のために空間時間的一貫性を利用する上で困難をもたらします。これを解決するために、私たちは空間時間的一貫性のために2つの新しい正則化制約を提案します。1) 時間的連続性 (temporal coherency) および 2) 勾配平滑性 (gradient smoothness) です。これらの側面は、ビデオ内のアクションの時間的連続性を利用しており、ラベルなしビデオをアクション検出に利用する上で有効であることが確認されています。私たちは、UCF101-24 と JHMDB-21 という2つの異なるアクション検出ベンチマークデータセットで提案手法の有効性を示しています。さらに、YouTube-VOS データセットでのビデオオブジェクトセグメンテーションにも適用し、その汎化能力を示しています。提案手法は、UCF101-24 のみで全体の20%のアノテーションを使用することで、最近の完全教師あり方法と比較して競争力のある性能を達成しました。UCF101-24 においては、監督学習アプローチと比較して0.5 f-mAP で+8.9%、v-mAP で+11% のスコア向上が見られました。

ソースPDF コードを表示