8ヶ月前

概要

最近、歩行認識は研究の注目を集めていますが、空間領域でのシルエットの違いは非常に微妙であるため、時間的な特徴表現が歩行認識において重要な役割を果たします。人間が異なる被験者の歩行を識別するために、時間スケールに応じて適応的に焦点を当てるという観察に基づき、我々は変換器（Transformer）を使用した多スケールコンテキストアウェアネットワーク（MCAT）を提案します。MCATは3つのスケールで時間的な特徴を生成し、局所的および全体的な視点から得られるコンテキスト情報を使用してそれらを適応的に集約します。具体的には、MCATには局所関係モデリングに続いて全体関係モデリングを行う多スケール特徴融合（Adaptive Temporal Aggregation: ATA）モジュールが含まれています。また、時間操作によって引き起こされる空間特徴の破壊を補正するため、MCATは区別可能な空間特徴を選択する顕著な空間特徴学習（Salient Spatial Feature Learning: SSFL）モジュールを取り入れています。3つのデータセットで実施された広範な実験により、最先端の性能が示されました。具体的には、CASIA-Bでは通常の歩行、バッグを持つ場合、コートを着ている場合においてそれぞれ98.7%、96.2%、88.7%のランク1精度を達成しました。OU-MVLPでは97.5%のランク1精度を達成し、GREWでは50.6%のランク1精度を達成しました。ソースコードは https://github.com/zhuduowang/MCAT.git で公開されます。

ソースPDF コードを表示