2ヶ月前
アクションマシン:トリミングされた動画における行動認識の再考
Zhu, Jiagang ; Zou, Wei ; Xu, Liang ; Hu, Yiming ; Zhu, Zheng ; Chang, Manyu ; Huang, Junjie ; Huang, Guan ; Du, Dalong

要約
既存のビデオアクション認識手法は、人間の体と環境を区別せず、シーンや物体に対して容易に過学習してしまう傾向があります。本研究では、トリミングされたビデオにおけるアクション認識のための概念的に単純で汎用性が高く、高性能なフレームワークを提案します。この手法は「アクションマシン」と呼ばれ、人間のバウンディングボックスで切り取られたビデオを入力として取り扱います。インフレート3Dコンボネット(I3D)を拡張し、ヒューマンポーズ推定用のブランチとポーズベースのアクション認識用の2D CNNを追加することで、高速な訓練とテストが可能となっています。アクションマシンは、アクション認識とポーズ推定のマルチタスク訓練から恩恵を受け、RGB画像とポーズからの予測結果を融合することができます。NTU RGB-Dデータセットにおいて、アクションマシンはクロスビューおよびクロスサブジェクトでのトップ1精度がそれぞれ97.2%と94.3%を達成し、最先端の性能を示しています。また、Northwestern UCLA Multiview Action3D、MSR Daily Activity3D、UTD-MHADという他の3つの较小规模なアクション認識データセットでも競争力のある性能を達成しています。コードは公開される予定です。