
要約
日常生活動作(ADL)の認識において、RGB画像と3Dポーズを統合する試みが多数行われてきた。ADLは外見上非常に類似しており、それらを区別するには細かい詳細をモデル化する必要がある。近年の3D ConvNetは、動作全体にわたる微細な視覚パターンを捉えるのに不十分であるため、この研究分野ではRGBと3Dポーズを組み合わせる手法が主流となっている。しかし、RGBストリームから3Dポーズを推定するには適切なセンサがなければ計算コストが非常に高くなる。その結果、低レイテンシを要する実世界アプリケーションにおける上記手法の利用が制限されている。では、ADL認識において3Dポーズをいかに効果的に活用できるか。こうした課題に応えるため、我々はポーズ駆動型アテンション機構の拡張として、Video-Pose Network(VPN)を提案する。このアプローチは、2つの異なる方向性を探索する。1つは、特徴レベルの知識蒸留を通じてポーズの知識をRGBに転送する方法であり、もう1つはアテンションレベルの知識蒸留によりポーズ駆動型アテンションを模倣する方法である。最終的に、これらの2つのアプローチを統合した単一モデルを構築し、VPN++と命名した。本研究では、VPN++が効果的であるだけでなく、高い処理速度向上とノイズのあるポーズに対する高いロバスト性を示すことを実証した。3Dポーズを用いるか否かにかかわらず、VPN++は4つの公的データセットにおいて代表的なベースラインを上回る性能を達成した。コードは以下のURLで公開されている:https://github.com/srijandas07/vpnplusplus。