오픈 세트에서 클로즈드 세트까지: 공간 분할 정복을 통한 객체 계수

시각적 개체 수 세기(visual counting)는 이미지나 비디오에서 객체의 수를 예측하는 작업으로, 본질적으로 오픈셋(open-set) 문제입니다. 즉, 이론적으로 개체의 수는 $[0,+\infty)$ 범위 내에서 다양할 수 있습니다. 그러나 실제로 수집된 이미지와 라벨링된 수치는 제한적이므로, 관찰되는 것은 작은 클로즈드 셋(closed set)에 불과합니다. 기존 방법들은 주로 회귀(regression) 방식으로 이 작업을 모델링하지만, 이들 방법은 클로즈드 셋의 범위를 벗어난 새로운 장면에서 성능 저하를 겪을 가능성이 큽니다. 사실상, 수 세기는 분해 가능합니다. 밀도가 높은 영역은 항상 하위 영역(sub-region)으로 나누어질 수 있으며, 이 하위 영역들의 개체 수는 이전에 관찰된 클로즈드 셋 내에 포함될 것입니다. 이러한 아이디어에서 영감을 받아 우리는 간단하면서도 효과적인 접근법인 공간 분할 및 정복 네트워크(Spatial Divide-and-Conquer Network, S-DCNet)를 제안합니다.S-DCNet은 클로즈드 셋에서 학습하지만, S-DC(Spatial Divide-and-Conquer)를 통해 오픈셋 시나리오에도 잘 일반화됩니다. 또한 S-DCNet은 효율적입니다. 하위 영역의 컨볼루셔널 특징(convolutional features)을 반복적으로 계산하는 것을 피하기 위해, S-DC는 입력 이미지 대신 특징 맵(feature map)에서 실행됩니다. S-DCNet은 상하이테크(ShanghaiTech), UCF_CC_50, UCF-QNRF 세 가지 군중 수 세기 데이터셋과 차량 수 세기 데이터셋(TRANCOS), 식물 수 세기 데이터셋(MTC)에서 최고의 성능을 달성했습니다. 기존 최고 방법들과 비교하여 S-DCNet은 상하이테크 파트 B에서는 20.2%, UCF-QNRF에서는 20.9%, TRANCOS에서는 22.5%, MTC에서는 15.1%의 상대적인 성능 향상을 보였습니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/xhp-hust-2018-2011/S-DCNet.