HyperAIHyperAI

Command Palette

Search for a command to run...

C2T-Net:Pedestrian Attribute Recognitionのためのチャネル認識型クロス結合トランスフォーマー風ネットワーク

Ba Hung Ngo Thinh V. Le Doanh C. Bui

概要

歩行者属性認識(Pedestrian Attribute Recognition, PAR)は、監視を含む多様なセキュリティ応用において重要な課題でありながら、実用的な意義を有している。本研究では、UPARチャレンジの枠組みの中で、チャネルに配慮したクロス融合型トランスフォーマー構造を採用したC2T-Net(Channel-Aware Cross-Fused Transformer-Style Networks)を提案する。このネットワークは、Swin Transformer(SwinT)と、元のビジョントランスフォーマー(Vanilla Vision Transformer)をカスタマイズしたEVA ViTという、二つの強力なトランスフォーマー型ネットワークを効果的に統合することで、個人の局所的およびグローバルな特徴を同時に捉え、高精度な属性認識を実現することを目的としている。さらに、チャネル間の複雑な関係性を明確に理解するため、各SwinTブロックにチャネルに配慮した自己注意機構(channel-aware self-attention mechanism)を導入した。また、二つのトランスフォーマー型ネットワークからの特徴をクロス融合により統合することで、それぞれのネットワークが互いに強化し合い、相手のテクスチャ的な微細な特徴を強調する仕組みを実現した。提案手法の有効性は、PA100K、PETA、およびUPAR2024プライベートテストの3つのPARベンチマークにおける実験結果によって裏付けられている。PA100Kベンチマークにおいては、事前学習を一切用いないモデルと比較しても最先端の性能を達成した。PETAデータセットにおいても、他の最先端モデルと同等の競争力を示した。特に、UPAR2024-track-1のテストセットでは、2位の成績を収めた。実装コードは、https://github.com/caodoanh2001/upar_challenge にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています