17日前
Learn2Augment:行動認識におけるデータ拡張のための動画合成を学ぶ
Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara

要約
動画の行動認識におけるデータ拡張に関する問題に取り組む。従来の動画データ拡張戦略は手動で設計されており、可能な拡張データ点の空間をランダムにサンプリングするか、あるいはヒューリスティックに基づいて選択するものである。しかし、どちらの場合も、どの拡張サンプルがより優れているかを事前に知ることができない。本研究では、行動認識に適した優れた動画の特徴を学習し、拡張に使用するサンプルとして高品質なものを厳選するアプローチを提案する。特に、前景動画と背景動画の合成をデータ拡張の手法として採用することで、多様かつ現実的な新たなサンプルを生成する。我々は、実際に合成を行わずに、どの動画ペアを拡張すべきかを学習する。これにより、可能な拡張の空間を大幅に削減でき、その結果、計算コストの削減と、平均よりも品質の高い拡張ペアを用いることで、最終的な分類器の精度向上という二つの利点が得られる。本研究では、少数ラベル学習(few-shot)、半教師あり学習(semi-supervised)、完全教師あり学習(fully supervised)という、あらゆる訓練設定において実験結果を提示する。Kinetics、UCF101、HMDB51の各データセットにおいて、先行研究およびベースラインに対して一貫した性能向上を確認した。特にデータ量が限られた設定においては、新たなSOTA(State-of-the-Art)を達成しており、半教師あり学習設定では最大8.6%の性能向上が観察された。