18日前

教師-生徒ネットワークを用いたマルチモーダル統合による室内アクション認識

{Keith C.C. Chan, Yan Liu, Bruce X.B. Yu}
要約

屋内動作認識は、大型移動式簡易病院におけるインテリジェント医療など現代社会において重要な役割を果たしている。Kinectのような深度センサーの広範な利用に伴い、スケルトン情報とRGBモダリティを含むマルチモーダル情報が、性能向上の有望な手段として注目されている。しかし、従来の手法は単一のデータモダリティに注目するものが多く、あるいは複数モダリティの利点を十分に活かせていない。本論文では、屋内動作認識を目的として、スケルトンモダリティとRGBモダリティをモデルレベルで融合する教師-生徒マルチモーダル融合(Teacher-Student Multimodal Fusion: TSMF)モデルを提案する。本TSMFでは、教師ネットワークを用いてスケルトンモダリティの構造的知識を、RGBモダリティ向けの生徒ネットワークへと転送する。NTU RGB+DおよびPKU-MMDという2つのベンチマークデータセットを用いた広範な実験の結果、提案手法TSMFは最先端の単一モダリティおよびマルチモーダル手法を常に上回る性能を示した。さらに、TSMFは生徒ネットワークの認識精度を向上させるだけでなく、アンサンブル精度の顕著な向上も可能であることが示された。

教師-生徒ネットワークを用いたマルチモーダル統合による室内アクション認識 | 最新論文 | HyperAI超神経