17日前

カメラセンサから得られる文脈的アクションヒントによるマルチストリームアクション認識

{Yong Won Hong, Jongkwang Hong, Bora Cho, Hyeran Byun}
要約

行動認識の研究において、RGB画像から視覚センサーを通じて学習される主な情報は、外見情報と運動情報の2種類である。しかし、行動の特徴によっては、特定の物体の存在や画像内のグローバルに共有される情報といった文脈情報が、行動を定義する上で極めて重要となる。たとえば、「蹴る」と「走る」を区別する上で、ボールの存在は極めて重要な情報となる。さらに、一部の行動は典型的なグローバルな抽象的な姿勢を共有しており、これらを行動分類の鍵として利用できる。これらの観察に基づき、本研究では、画像内の空間的・時間的・文脈的情報を統合するマルチストリームネットワークモデルを提案する。本手法の有効性を検証するため、C3Dまたはインフレート3D畳み込みネットワーク(I3D)をバックボーンネットワークとして用い、2種類の異なる行動認識データセット上で実験を行った。その結果、全体的に精度の向上が確認され、提案手法の有効性が示された。