12日前

MMNet:RGB-D動画における人体行動認識のためのモデルベースマルチモーダルネットワーク

{Keith C.C. Chan, Sheng-hua Zhong, Xiang Zhang, Yan Liu, Bruce X.B. Yu}
要約

RGB-D動画における人間の行動認識(HAR)は、安価な深度センサの登場以来、広く研究されてきた。現在、単モーダルアプローチ(例:スケルトンベースおよびRGB動画ベース)は、より大きなデータセットの蓄積に伴い著しい進展を遂げている。一方で、モデルレベルの融合を特徴とするマルチモーダル手法については、依然として十分な研究が行われていない。本論文では、モデルベースのアプローチによりスケルトンモダリティとRGBモダリティを融合する、モデルベースのマルチモーダルネットワーク(MMNet)を提案する。本手法の目的は、異なるデータモダリティ間で相補的な情報を効果的に活用することで、アンサンブル認識精度の向上を図ることにある。モデルベース融合スキームとして、スケルトンモダリティに時空間グラフ畳み込みネットワークを用い、その学習により得られた注目度重みをRGBモダリティのネットワークに転送する。本手法は、NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、Northwestern-UCLA Multiview、Toyota Smarthomeの5つのベンチマークデータセットで広範な実験を実施した。複数モダリティの結果を統合した結果、5つのデータセットにおける6つの評価プロトコルにおいて、最先端の手法を上回ることが確認された。これにより、提案するMMNetがRGB-D動画モダリティ間の相補的特徴を効果的に捉え、HARにより識別力の高い特徴を提供できることを示した。さらに、屋外行動を多く含むRGB動画データセットKinetics 400でも本MMNetを検証したところ、RGB-D動画データセットと同様の良好な結果が得られ、その汎用性も示された。

MMNet:RGB-D動画における人体行動認識のためのモデルベースマルチモーダルネットワーク | 最新論文 | HyperAI超神経