17日前

映像内の行動認識:未知の視点から

AJ Piergiovanni, Michael S. Ryoo
映像内の行動認識:未知の視点から
要約

動画認識における従来の手法は、空間時間的なデータを捉えることを目的として設計された大規模な畳み込みニューラルネットワーク(CNN)を用いている。しかし、これらのモデルを訓練するには、多様な動作、シーン、設定およびカメラの視点を含む大量のラベル付きデータが必要となる。本論文では、現在の畳み込みニューラルネットワークモデルが、訓練データに存在しなかったカメラ視点からの動作認識(すなわち、未観測視点における動作認識)に対して能力を発揮できないことを示す。この課題に対処するため、3次元表現に基づくアプローチを開発し、視点不変表現を学習可能な新しい幾何学的畳み込み層を導入する。さらに、未観測視点認識を対象とした新規で挑戦的なデータセットを提案し、本手法が視点不変表現を学習可能であることを実証する。