
초록
우리는 캡셔닝과 VQA와 같은 고수준 작업을 위한 개선된 시각적 영역 인코더로 활용할 수 있는 새로운 비지도 특징 표현 학습 방법, 시각적 공감각 기반 합성곱 신경망(Visual Commonsense Region-based Convolutional Neural Network, VC R-CNN)을 제안한다. 이미지 내 탐지된 객체 영역 집합(예: Faster R-CNN을 사용하여)을 입력으로 받을 때, VC R-CNN의 대체 학습 목표는 해당 영역의 맥락적 객체를 예측하는 것이다. 이는 다른 비지도 특징 학습 방법(예: word2vec)과 유사하다. 그러나 근본적으로 차이가 있다. VC R-CNN은 기존의 일반적인 가능도 기반 예측 P(Y|X)가 아니라 인과적 개입을 활용한 예측 P(Y|do(X))를 사용한다. 이는 VC R-CNN이 단순히 '자주 함께 나타나는' 관계(예: 테이블이 보이면 의자가 자주 존재할 가능성이 높다)를 학습하는 것을 넘어서, '의미를 이해하는' 지식(예: 의자는 앉을 수 있다)을 학습할 수 있게 하는 핵심 요인이다. 우리는 VC R-CNN 특징을 이미지 캡셔닝, VQA, VCR이라는 세 가지 대표적인 작업에서 널리 적용하여, 모든 작업에서 일관된 성능 향상을 관찰하였으며, 다수의 새로운 최고 성능 기록을 달성하였다. 코드 및 특징 데이터는 https://github.com/Wangt-CN/VC-R-CNN에서 제공된다.