
要約
Vision Transformer(ViT)の変種は、集団数え上げを含む多数のコンピュータビジョンベンチマークにおいて、最先端の性能を示している。一方で、Transformerに基づくモデルは集団数え上げにおいて顕著な進展を遂げているものの、既存の手法にはいくつかの限界がある。ViTから抽出されるグローバルな埋め込み表現は、細かい局所的な特徴を十分に捉えておらず、人間のスケールや密度が多様な混雑したシーンでは誤差が生じやすい。本論文では、以下の主張に基づいて「LoViTCrowd」を提案する:ViTのアテンション機構を用いて、関連領域からの空間情報を有する局所特徴を抽出することで、集団数え上げの誤差を効果的に低減できる。この目的のため、画像をセルグリッドに分割する。3×3のセルを1つのパッチとし、人間の主要な部位が含まれる領域を想定する。その周囲のセルは、集団推定に有意義な手がかりを提供する。各パッチに対してViTを適応させ、3×3のセル間におけるアテンション機構を活用して中央セル内の人数を推定する。画像全体の人数は、重複しない各セルの推定値を合計することで得られる。マール、ShanghaiTech Part A、ShanghaiTech Part B、UCF-QNRFの4つの公開データセット(疎密度および高密度シーンを含む)における広範な実験により、本手法が最先端の性能を達成することが示された。TransCrowdと比較して、LoViTCrowdは平均的にルート平均二乗誤差(RMSE)を14.2%、平均絶対誤差(MAE)を9.7%低減した。ソースコードは以下のURLで公開されている:https://github.com/nguyen1312/LoViTCrowd