11일 전
MoVie: 시각적 개수 세기 및 그 이상을 위한 조절형 합성곱의 재검토
Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen

초록
이 논문은 자연 이미지와 질의(예: 질문 또는 카테고리)가 주어졌을 때 해당 객체의 등장 횟수를 예측하는 시각적 카운팅(visual counting)에 초점을 맞추고 있다. 기존 대부분의 연구들이 계산 비용이 크고 일반화 능력이 제한적인 명시적이고 기호적인 모델을 사용하는 반면, 우리는 질의와 이미지를 국부적으로 융합하는 조절형 합성곱(Convolution)을 다시 고려함으로써 간단하고 효과적인 대안을 제안한다. 잔차 블록(Residual bottleneck)의 설계를 따르며, 본 방법을 'MoVie'(Modulated conVolutional bottlenecks의 약자)라 명명한다. 특히 MoVie는 암묵적이고 통합적인 추론을 수행하며, 추론 과정에서 단일 전방 전파(forward-pass)만을 필요로 한다. 그럼에도 불구하고 MoVie는 카운팅 작업에서 뛰어난 성능을 보여주며, 다음과 같은 결과를 달성하였다: 1) 카운팅에 특화된 VQA 작업에서 최신 기준을 개선하면서도 더 효율적임; 2) 일반 객체 카운팅에 어려운 벤치마크인 COCO에서 기존 최고 성능을 초월함; 3) 일반 VQA 모델에서 '수량' 관련 질문 처리 모듈로 통합되었을 때, 2020년 VQA 챌린지에서 1위를 차지하는 데 기여함. 마지막으로, MoVie와 같은 조절형 합성곱이 카운팅을 넘어서는 추론 작업에 있어 일반적인 메커니즘으로 활용될 수 있음을 실험적으로 제시한다.