17日前

I3D-LSTM:人体行動認識のための新規モデル

{Zhenjiang Miao, Xianyuan Wang, Ruyi Zhang, Shanshan Hao}
要約

行動認識は近年、非常に注目されている研究テーマであり、動画内の異なる人間の行動を分類することを目的としている。現在の主流手法は、一般的にImageNetで事前学習されたモデルを特徴抽出器として利用しているが、膨大な静止画像データセット上で動画の分類を目的としてモデルを事前学習することは、最適な選択とは言えない。さらに、3D畳み込みニューラルネットワーク(3D CNN)が低次元の空間時系列特徴の抽出に優れているのに対し、再帰型ニューラルネットワーク(RNN)が高次元の時系列特徴のモデリングに適しているという点に着目した研究は極めて少ない。本研究では、上述の2つの課題に対処するため、新たなモデルを提案する。まず、Kineticsという大規模な動画行動認識データセット上で3D CNNモデルを事前学習することで、モデルの汎化能力を向上させる。その後、Kineticsで事前学習された3D CNNによって得られる高次元の時系列特徴をモデリングするために、長短期記憶(LSTM)を導入する。実験結果から、Kineticsで事前学習されたモデルは一般的にImageNetで事前学習されたモデルを上回ることが示された。また、本研究で提案するネットワークはUCF-101データセットにおいて、最先端の性能を達成した。