11일 전

CLIP-EBC: 개선된 블록 단위 분류를 통한 CLIP의 정확한 개수 세기

Yiming Ma, Victor Sanchez, Tanaya Guha
CLIP-EBC: 개선된 블록 단위 분류를 통한 CLIP의 정확한 개수 세기
초록

우리는 정확한 군중 밀도 추정을 위한 처음으로 완전히 CLIP 기반의 모델인 CLIP-EBC를 제안한다. CLIP 모델은 제로샷 이미지 분류와 같은 인식 작업에서 뛰어난 성과를 보여왔지만, 계수(counting)와 같은 회귀 문제를 인식 작업으로 변환하는 데 내재된 도전 과제로 인해 그 계수에 대한 잠재력은 거의 탐색되지 않았다. 본 연구에서는 CLIP의 계수 능력을 탐구하고 개선하며, 특히 이미지로부터 군중 규모를 추정하는 작업에 초점을 맞춘다. 기존의 분류 기반 군중 계수 프레임워크는 계수 값을 실수 범위의 이웃한 구간(bin)으로 양자화하는 한계와 분류 오류에만 집중하는 문제를 가지고 있다. 이러한 접근은 공유 경계 근처에서 레이블의 모호성을 유발하고 계수 값의 예측 정확도를 저하시킨다. 따라서 이러한 프레임워크 내에서 CLIP를 직접 적용할 경우 최적의 성능을 달성하기 어려울 수 있다.이러한 문제를 해결하기 위해, 우리는 먼저 개선된 블록 단위 분류(Enhanced Blockwise Classification, EBC) 프레임워크를 제안한다. 기존 방법과 달리 EBC는 정수 값을 갖는 범위를 사용함으로써 범위 경계 근처의 모호성을 효과적으로 줄인다. 또한, 밀도 맵 기반의 회귀 손실을 도입하여 계수 값의 예측 정확도를 향상시킨다. 본 연구에서 제안하는 백본 무관(backbone-agnostic) EBC 프레임워크 내에서, CLIP의 인식 능력을 최대한 활용하기 위해 CLIP-EBC를 도입한다. 광범위한 실험을 통해 EBC의 효과성과 CLIP-EBC의 경쟁력 있는 성능을 입증하였다. 구체적으로, EBC 프레임워크는 UCF-QNRF 데이터셋에서 기존 분류 기반 방법의 성능을 최대 44.5%까지 향상시켰으며, CLIP-EBC는 NWPU-Crowd 테스트 세트에서 최신 기준(SOTA) 성능을 달성하여 MAE 58.2, RMSE 268.5를 기록하였다. 이는 이전 최고 성능 모델인 STEERER 대비 각각 8.6%, 13.3% 향상된 결과이다. 코드 및 모델 가중치는 https://github.com/Yiming-M/CLIP-EBC 에서 공개되어 있다.

CLIP-EBC: 개선된 블록 단위 분류를 통한 CLIP의 정확한 개수 세기 | 최신 연구 논문 | HyperAI초신경