2ヶ月前

NTU RGB+D 120: 大規模な3次元人間活動理解のベンチマーク

Liu, Jun ; Shahroudy, Amir ; Perez, Mauricio ; Wang, Gang ; Duan, Ling-Yu ; Kot, Alex C.
NTU RGB+D 120: 大規模な3次元人間活動理解のベンチマーク
要約

深さに基づく人間活動分析の研究は優れた性能を達成し、3D表現が行動認識に有効であることを示しました。既存の深さに基づくおよびRGB+Dに基づく行動認識ベンチマークには、大規模な訓練サンプルの不足、現実的なクラス数の不足、カメラ視点の多様性、環境条件の変動性、人間被験者の多様性などの多くの制限があります。本研究では、106人の異なる被験者から収集された11万4千以上のビデオサンプルと800万フレームを含む大規模なRGB+D人間行動認識データセットを紹介します。このデータセットには、日常生活、相互作用、健康関連など120種類の異なる行動クラスが含まれています。私たちはこのデータセット上で一連の既存の3D活動分析手法の性能を評価し、深層学習手法を3Dベースの人間行動認識に適用することの利点を示しました。さらに、私たちのデータセット上で新しいワンショット3D活動認識問題を調査し、「アクション-パーツ意味的関連性」(Action-Part Semantic Relevance-aware: APSR)フレームワークを提案しました。このフレームワークは単純ながら効果的であり、新しい行動クラスの認識において有望な結果をもたらしています。私たちはこの大規模なデータセットの導入により、コミュニティが深さに基づくおよびRGB+Dに基づく人間活動理解のために様々なデータ駆動型学習技術を適用し、適応させ、開発することができると信じています。[データセットは以下のURLで利用可能です: http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]