2ヶ月前

VideoGraph: 動画における数分間の人類活動の認識

Hussein, Noureldien ; Gavves, Efstratios ; Smeulders, Arnold W. M.
VideoGraph: 動画における数分間の人類活動の認識
要約

多くの人間の活動は数分間で展開される。それらを表現するために、関連する研究では統計的なプーリングを選択することが多いが、これにより時間構造が無視されてしまう。一方、CNNやNon-Localなどの畳み込み手法を選ぶ研究もある。これらの手法は時間概念の学習に成功しているものの、数分間にわたる時間依存性をモデル化するには不足している。本稿では、VideoGraphという方法を提案し、両者の長所を活かすことを目指す:数分間続く人間の活動を表現し、その潜在的な時間構造を学習する。VideoGraphは、人間の活動に対するグラフベースの表現を学習する。このグラフとそのノードやエッジは、完全にビデオデータセットから学習されるため、ノードレベルのアノテーションがない問題にも適用可能である。結果として、Epic-KitchensおよびBreakfastベンチマークにおいて関連研究よりも改善が見られた。さらに、VideoGraphが数分間のビデオにおいて人間の活動の時間構造を学習できることが示された。