17日前

RGB-Dモーション認識のための統一型マルチモーダル脱結合・再結合フレームワーク

Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang
RGB-Dモーション認識のための統一型マルチモーダル脱結合・再結合フレームワーク
要約

動き認識はコンピュータビジョン分野における有望な研究方向性であるが、画像分類モデルと比較して動画分類モデルの学習は、データ不足と膨大なパラメータ数という課題によりはるかに困難である。この問題を克服するため、一部の研究ではRGB-Dデータからマルチモーダルな手がかりを活用しようとしている。しかし、これらの手法は動き認識性能の向上には一定の効果を示すものの、以下の点で依然として最適でない状況に直面している。(i) データ拡張:RGB-Dデータセットの規模は依然として限定的であり、動画向けに新たなデータ拡張戦略を模索する取り組みは少ない。(ii) 最適化メカニズム:空間・時間の密接に絡み合ったネットワーク構造は、時空間情報のモデリングにおいてさらなる課題を引き起こす。(iii) マルチモーダル知識の融合:複数モーダル表現間の高い類似性により、後段の融合(late fusion)が不十分となる。これらの課題を軽減するため、本論文ではデータとアルゴリズムの両面からRGB-Dに基づく動き認識の性能向上を提案する。具体的には、まず、MixUpの補完として機能する新しい動画データ拡張手法「ShuffleMix」を導入し、動き認識に追加の時系列正則化を提供する。次に、動画表現学習を目的とした統一的マルチモーダル分離・多段階再結合フレームワーク「UMDR(Unified Multimodal De-coupling and multi-stage Re-coupling)」を提案する。さらに、マルチモーダル情報内に潜在する共通特徴を効果的に抽出し、融合の補助ストリームとして活用する新たなクロスモーダル補完特徴捕捉器「CFCer(Complement Feature Catcher)」を考案する。これらの新規設計をシームレスに統合することで、堅牢な時空間表現が構築され、4つの公開動画データセットにおいて最先端手法を上回る性能を達成した。特に、Chalearn IsoGDデータセットにおいてUMDRは+4.5%という前例のない性能向上を実現した。本研究のコードは、https://github.com/zhoubenjia/MotionRGBD-PAMI にて公開されている。