
要約
私たちは、2D画像解析で成功裏に使用されてきた意味転送技術に着想を得た、ビデオ理解の一般的なアプローチを提案します。当方法では、ビデオを各々独自の意味を持つ1次元のクリップ列として捉えます。これらの意味の性質(自然言語のキャプションやその他のラベル)は、取り組むタスクによって異なります。テストビデオは、既知の意味を持つリファレンスビデオとのクリップ間の対応関係を形成することで処理され、その後、リファレンスビデオの意味がテストビデオに転送されます。私たちは2つのマッチング手法について説明します。両手法とも、(a) リファレンスクリップがテストクリップと類似していることと (b) 選択されたリファレンスクリップ全体としての一貫性と時間的連続性が保たれることを確保するように設計されています。当方法をLSMDC'16ベンチマークでのビデオキャプショニング、SumMeおよびTVSumベンチマークでのビデオ要約化、Thumos2014ベンチマークでの時系列アクション検出、Greatest Hitsベンチマークでの音響予測に使用しました。当方法は5つのベンチマーク中4つで最先端技術を超えるだけでなく、重要な点として、これほど多様なタスクに成功裏に適用された単一の方法としては唯一知られているものであるということです。