12日前

RGBおよびスケルトンモダリティに基づく人間の行動認識のための密度-疎らな補完ネットワーク

{Qin Cheng,Jun Cheng,Zhen Liu,Ziliang Ren,Jianming Liu}
要約

複雑な環境や変化の大きいシーンにおけるRGBベースの人体行動認識の脆弱性は、骨格情報(skeleton)モダリティによって補完可能である。そのため、RGBと骨格モダリティを融合した行動認識手法は、近年ますます注目を集めている。しかし、既存の手法は、サンプリング、モデリング、融合戦略の最適化が不十分であるため、認識性能は依然として満足のいくものではなく、計算コストも重いという課題を抱えている。本論文では、低コストでRGBと骨格モダリティの補完的情報を効果的に活用し、競争力のある行動認識性能を達成することを目的として、Dense-Sparse Complementary Network(DSCNet)を提案する。具体的には、RGBモダリティの特長を活かすために密サンプリング(dense sampling)、骨格モダリティの特長を活かすために疎サンプリング(sparse sampling)をそれぞれ採用する。さらに、骨格情報をガイドとして用い、RGBフレーム内の人物の関心領域(key active region)を切り出し、背景の干渉を大幅に低減する。また、バックボーンネットワークに供給する前に、密にサンプリングされたRGBフレームを圧縮するためのShort-Term Motion Extraction Module(STMEM)を提案する。これにより、計算コストの急増を回避できる。さらに、疎な骨格データを効果的にモデリングするため、Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network(Sparse-MSSTNet)を設計した。広範な実験により、本手法がRGBと骨格モダリティの補完的情報を効果的に統合し、認識精度を向上させることを確認した。DSCNetは、NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、UAV-human、IKEA ASM、Northwest-UCLAの各データセットにおいて、既存手法よりもはるかに低い計算コストで競争力ある性能を達成した。コードは以下のURLから公開されている:https://github.com/Maxchengqin/DSCNet。

RGBおよびスケルトンモダリティに基づく人間の行動認識のための密度-疎らな補完ネットワーク | 最新論文 | HyperAI超神経