HyperAIHyperAI

Command Palette

Search for a command to run...

MMNet:RGB-D動画における人体行動認識のためのモデルベースマルチモーダルネットワーク

Keith C.C. Chan Sheng-hua Zhong Xiang Zhang Yan Liu Bruce X.B. Yu

概要

RGB-D動画における人間の行動認識(HAR)は、安価な深度センサの登場以来、広く研究されてきた。現在、単モーダルアプローチ(例:スケルトンベースおよびRGB動画ベース)は、より大きなデータセットの蓄積に伴い著しい進展を遂げている。一方で、モデルレベルの融合を特徴とするマルチモーダル手法については、依然として十分な研究が行われていない。本論文では、モデルベースのアプローチによりスケルトンモダリティとRGBモダリティを融合する、モデルベースのマルチモーダルネットワーク(MMNet)を提案する。本手法の目的は、異なるデータモダリティ間で相補的な情報を効果的に活用することで、アンサンブル認識精度の向上を図ることにある。モデルベース融合スキームとして、スケルトンモダリティに時空間グラフ畳み込みネットワークを用い、その学習により得られた注目度重みをRGBモダリティのネットワークに転送する。本手法は、NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、Northwestern-UCLA Multiview、Toyota Smarthomeの5つのベンチマークデータセットで広範な実験を実施した。複数モダリティの結果を統合した結果、5つのデータセットにおける6つの評価プロトコルにおいて、最先端の手法を上回ることが確認された。これにより、提案するMMNetがRGB-D動画モダリティ間の相補的特徴を効果的に捉え、HARにより識別力の高い特徴を提供できることを示した。さらに、屋外行動を多く含むRGB動画データセットKinetics 400でも本MMNetを検証したところ、RGB-D動画データセットと同様の良好な結果が得られ、その汎用性も示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMNet:RGB-D動画における人体行動認識のためのモデルベースマルチモーダルネットワーク | 記事 | HyperAI超神経