18日前

Poseletキーフレーミング:人間の行動認識のためのモデル

{Michalis Raptis, Leonid Sigal}
Poseletキーフレーミング:人間の行動認識のためのモデル
要約

本稿では、人間の行動を認識するための新しいモデルを提案する。行動は、アクターの部分的なキーポーズの集まりである、時間的に局所的な判別性の高いキーフレームの非常にスパースな系列としてモデル化される。我々は、キーフレームを潜在変数として扱い、マックスマージン判別枠組みにおいてキーフレームの学習を定式化する。これにより、最も判別力の高いキーフレームの集合を(同時に)学習しつつ、それらの間の局所的な時間的文脈も学習することが可能となる。キーフレームは、弱いアノテーションから学習されたHoG(Histogram of Oriented Gradients)およびBoW(Bag of Words)成分を含む、空間的に局所化可能なポーズレット(poselet)型の表現によって符号化される。構造化SVM(Structured SVM)の定式化を用いて、各構成要素の整合性を保ちつつ、ハードネガティブ例を探索することで、局所化性能の向上を図っている。その結果、空間時間的な局所化をサポートし、フレームの欠落や部分的な観測に対してもロバストなモデルが得られた。標準ベンチマークであるUT-Interactionデータセットにおいて、最先端の手法と同等の分類性能を達成したことを示し、またオンラインストリーミング環境下においても、従来の手法を上回る性能を発揮することを実証した。