표현, 비교, 학습: 클래스 무관(counting)을 위한 유사도 인지 기반 프레임워크

클래스 무관 카운팅(Class-agnostic counting, CAC)은 소수의 예시 이미지(예시)를 제공받아 쿼리 이미지 내 모든 객체 인스턴스를 세는 것을 목표로 한다. 전통적인 파이프라인은 예시 이미지에서 시각적 특징을 추출한 후, 이를 쿼리 이미지와 매칭하여 객체 수를 추론하는 방식이다. 이 파이프라인에서 핵심적인 두 요소는 특징 표현(feature representation)과 유사도 측정(similarity metric)이다. 기존의 방법들은 특징 표현에 사전 훈련된 네트워크를 사용하거나 새로운 특징 표현을 학습하지만, 고정된 내적 곱(inner product)을 사용하는 단순한 유사도 측정 방식을 채택하고 있다. 본 연구에서는 이러한 패러다임이 노이즈가 많은 유사도 매칭을 초래하고, 결과적으로 카운팅 성능을 저하시킨다는 점을 발견하였다. 본 논문에서는 특징 표현과 유사도 측정을 함께 학습하는 유사도 인지형 CAC 프레임워크를 제안한다. 먼저, 학습 가능한 이차형 유사도 측정을 핵심 구성 요소로 하는 단순한 베이스라인 모델인 이차형 매칭 네트워크(Bilinear Matching Network, BMNet)를 제안한다. 더 나아가 본 프레임워크의 핵심을 명확히 하기 위해 BMNet을 확장한 BMNet+를 제안하며, 이는 유사도를 세 가지 측면에서 모델링한다: 1) 각 인스턴스의 자기 유사성(self-similarity)을 활용하여 클래스 내 변동성에 대한 특징의 강건성을 높임; 2) 동적으로 유사도를 비교하여 각 예시의 핵심 패턴에 집중; 3) 감독 신호를 통해 매칭 결과에 명시적인 제약을 부여함. 최근의 CAC 데이터셋 FSC147에서 실시한 광범위한 실험 결과, 제안하는 모델들이 기존 최고 성능의 CAC 방법들을 크게 능가함을 확인하였다. 또한, 차량 카운팅 데이터셋 CARPK에서의 실험을 통해 BMNet과 BMNet+의 다중 데이터셋 일반화 능력도 검증하였다. 코드는 tiny.one/BMNet에서 확인할 수 있다.