8ヶ月前

概要

長時間ビデオのエンドツーエンド行動認識モデルの開発は、長時間ビデオの行動理解において基本的かつ重要な役割を果たします。しかし、全長時間ビデオでエンドツーエンドの学習を行うコストは非常に高く、現行の研究では一般的に長時間ビデオから切り出した短いクリップでモデルを学習しています。この「切り出し後に学習」の手法は、クリップレベルでの監督に必要な行動区間アノテーション（即ち、どの行動がクリップに含まれているかを知ること）を必要とします。しかしながら、このようなアノテーションを集めるのは非常に高価であり、大規模なモデル学習を妨げています。本研究では、全長時間ビデオに対して動画レベルの行動カテゴリラベルのみを使用して弱教師ありエンドツーエンドフレームワークを構築することを目指しています。具体的には、提案する弱教師ありフレームワークであるAdaptFocusが、長時間ビデオ内の行動の正確な時刻位置を知らない状態で、行動がどこでどれだけ起こる可能性があるかを推定し、情報量豊富な行動クリップに適応的に焦点を当ててエンドツーエンド学習を行います。提案したAdaptFocusフレームワークの有効性は3つの長時間ビデオデータセットで示されています。さらに、下流タスクにおける長時間ビデオ処理において、本研究のAdaptFocusフレームワークはより堅牢な長時間ビデオ特徴量を抽出するための弱教師あり特徴量抽出パイプラインを提供します。これにより、下流タスクにおける最先端手法が大幅に進歩しました。コードおよびモデルは公開される予定です。

ソースPDF