
要約
本論文では、人間にとって容易に管理可能なタスクである、異なる角度から人間の体の3次元姿勢を認識する能力について、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)の可能性を探る。ただし、当該アプローチでは単眼視覚システム(monocular vision system)のみを使用する制約がある。この目的のために、RGB動画に対して畳み込みニューラルネットワーク手法を適用し、それを3次元畳み込みへと拡張している。具体的には、動画における時間軸を畳み込み空間の第3次元として符号化し、3次元座標空間における人間の体関節位置を直接回帰することで実現している。本研究は選定されたHuman3.6Mデータセットにおいて、このようなネットワークが最先端の性能を達成できることを示しており、畳み込み演算において追加の次元を使用して時系列データを成功裏に表現できる可能性を証明している。