HyperAIHyperAI

Command Palette

Search for a command to run...

多尺度コンテキスト認識ネットワークとトランスフォーマーを用いた歩行認識

Zhuduo Wang Xiaodong Liu Yonghui Zhang Qiang Yang

概要

最近、歩行認識は研究の注目を集めていますが、空間領域でのシルエットの違いは非常に微妙であるため、時間的な特徴表現が歩行認識において重要な役割を果たします。人間が異なる被験者の歩行を識別するために、時間スケールに応じて適応的に焦点を当てるという観察に基づき、我々は変換器(Transformer)を使用した多スケールコンテキストアウェアネットワーク(MCAT)を提案します。MCATは3つのスケールで時間的な特徴を生成し、局所的および全体的な視点から得られるコンテキスト情報を使用してそれらを適応的に集約します。具体的には、MCATには局所関係モデリングに続いて全体関係モデリングを行う多スケール特徴融合(Adaptive Temporal Aggregation: ATA)モジュールが含まれています。また、時間操作によって引き起こされる空間特徴の破壊を補正するため、MCATは区別可能な空間特徴を選択する顕著な空間特徴学習(Salient Spatial Feature Learning: SSFL)モジュールを取り入れています。3つのデータセットで実施された広範な実験により、最先端の性能が示されました。具体的には、CASIA-Bでは通常の歩行、バッグを持つ場合、コートを着ている場合においてそれぞれ98.7%、96.2%、88.7%のランク1精度を達成しました。OU-MVLPでは97.5%のランク1精度を達成し、GREWでは50.6%のランク1精度を達成しました。ソースコードは https://github.com/zhuduowang/MCAT.git で公開されます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています