18日前

CNNを用いた動画における時空間推論の比較分析

Okan Köpüklü, Fabian Herzog, Gerhard Rigoll
CNNを用いた動画における時空間推論の比較分析
要約

動画ストリームにおける動作およびジェスチャーの理解には、異なる時間瞬間における空間的コンテンツに対する時系列的推論、すなわち空間時間(Spatiotemporal: ST)モデリングが不可欠である。本調査論文では、動作およびジェスチャー認識タスクにおけるさまざまなSTモデリング手法について比較分析を行った。畳み込みニューラルネットワーク(Convolutional Neural Networks: CNN)が静止画像の特徴抽出に有効であることが実証されていることから、本研究ではCNNにより異なる時間瞬間の静止画像から抽出された特徴に対してSTモデリング手法を適用した。すべての手法はCNNによる特徴抽出部と一体的にエンドツーエンドで学習され、公開されている2つのベンチマークデータセット、JesterおよびSomething-Somethingデータセットで評価された。Jesterデータセットは多様な動的および静的手のジェスチャーを含み、Something-Somethingデータセットは人間と物体の相互作用に関する動作を含んでいる。これらの2つのベンチマークの共通点は、正しく動作/ジェスチャーを分類するためには動画全体の時系列的情報を捉える必要がある点である。しかし予想に反して、実験結果は、再帰型ニューラルネットワーク(Recurrent Neural Network: RNN)に基づくSTモデリング手法が、完全畳み込みアーキテクチャなど他の手法に比べて劣った性能を示した。本研究のコードおよび事前学習済みモデルは公開されている。

CNNを用いた動画における時空間推論の比較分析 | 最新論文 | HyperAI超神経