HyperAIHyperAI

Command Palette

Search for a command to run...

視覚変換器を用いた集団人数推定における関連する空間情報による局所特徴の向上

Steven Q.H. Truong Trung Bui Chanh D. Tr. Nguyen Dao Huu Hung Phan Nguyen Soan T. M. Duong Ta Duc Huy Nguyen H. Tran

概要

Vision Transformer(ViT)の変種は、集団数え上げを含む多数のコンピュータビジョンベンチマークにおいて、最先端の性能を示している。一方で、Transformerに基づくモデルは集団数え上げにおいて顕著な進展を遂げているものの、既存の手法にはいくつかの限界がある。ViTから抽出されるグローバルな埋め込み表現は、細かい局所的な特徴を十分に捉えておらず、人間のスケールや密度が多様な混雑したシーンでは誤差が生じやすい。本論文では、以下の主張に基づいて「LoViTCrowd」を提案する:ViTのアテンション機構を用いて、関連領域からの空間情報を有する局所特徴を抽出することで、集団数え上げの誤差を効果的に低減できる。この目的のため、画像をセルグリッドに分割する。3×3のセルを1つのパッチとし、人間の主要な部位が含まれる領域を想定する。その周囲のセルは、集団推定に有意義な手がかりを提供する。各パッチに対してViTを適応させ、3×3のセル間におけるアテンション機構を活用して中央セル内の人数を推定する。画像全体の人数は、重複しない各セルの推定値を合計することで得られる。マール、ShanghaiTech Part A、ShanghaiTech Part B、UCF-QNRFの4つの公開データセット(疎密度および高密度シーンを含む)における広範な実験により、本手法が最先端の性能を達成することが示された。TransCrowdと比較して、LoViTCrowdは平均的にルート平均二乗誤差(RMSE)を14.2%、平均絶対誤差(MAE)を9.7%低減した。ソースコードは以下のURLで公開されている:https://github.com/nguyen1312/LoViTCrowd


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています