시각 변환기(Vision Transformer)를 활용한 군중 수세기에서 관련 공간 정보를 통한 로컬 특징 개선

비전 트랜스포머(Vision Transformer, ViT)의 다양한 변종들은 인식 기반의 여러 컴퓨터 비전 벤치마크에서 최첨단 성능을 보여주었으며, 특히 인구 밀도 계산(crowd counting) 분야에서도 뛰어난 성과를 거두었다. 비록 트랜스포머 기반 모델이 인구 밀도 계산 분야에서 획기적인 성과를 거두었지만, 기존 방법들은 몇 가지 한계를 가지고 있다. ViT에서 추출된 전역 임베딩(global embeddings)은 세밀한 국소적 특징을 충분히 반영하지 못하며, 인체의 크기와 밀도가 다양하게 분포한 혼잡한 장면에서는 오류가 발생하기 쉬운 경향이 있다. 본 논문에서는 다음과 같은 가정을 제시한다: ViT의 어텐션 메커니즘을 통해 관련 영역에서 공간 정보를 갖춘 국소적 특징(local features)을 추출하면, 인구 밀도 계산 오차를 효과적으로 줄일 수 있다. 이를 달성하기 위해, 각 이미지를 셀 격자(cell grid)로 분할한다. 3×3 셀의 패치(patch)를 고려할 때, 중심 셀에는 인체의 주요 부분이 포함되며, 주변 셀들은 인구 밀도 추정에 유의미한 단서를 제공한다. 각 패치에 대해 ViT를 적응하여 3×3 셀 간의 어텐션 메커니즘을 활용하여 중심 셀 내 인원 수를 계산한다. 전체 이미지의 인원 수는 겹치지 않는 셀들의 계산 결과를 합산함으로써 도출된다. 희소 및 밀집 장면을 포함한 네 가지 공개 데이터셋(Mall, ShanghaiTech Part A, ShanghaiTech Part B, UCF-QNRF)에서 실시한 광범위한 실험을 통해 본 방법이 최첨단 성능을 보임을 입증하였다. TransCrowd와 비교했을 때, LoViTCrowd는 평균적으로 루트 평균 제곱 오차(RMSE)를 14.2%, 평균 절대 오차(MAE)를 9.7% 감소시켰다. 코드는 다음 링크에서 공개되어 있다: https://github.com/nguyen1312/LoViTCrowd