17일 전
시각 질문 응답을 위한 거시적에서 미시적 사고로의 추론
Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen

초록
이미지와 질문 사이의 의미적 간극을 메우는 것은 시각질의응답(VQA) 작업의 정확도를 향상시키는 중요한 단계이다. 그러나 기존의 대부분의 VQA 방법들은 답변을 도출하기 위해 주로 주의 메커니즘 또는 시각적 관계에 초점을 맞추고 있으며, 다양한 의미 수준의 특징들이 충분히 활용되지 않고 있다. 본 논문에서는 VQA 작업에서 시각적 특징과 의미적 단서 사이의 간극을 채우기 위한 새로운 추론 프레임워크를 제안한다. 제안하는 방법은 먼저 이미지와 질문으로부터 특징과 조건절(predicates)을 추출한다. 이후, 이러한 특징과 조건절을 거친-세밀한(coarse-to-fine) 방식으로 효과적으로 공동 학습할 수 있는 새로운 추론 프레임워크를 제안한다. 세 개의 대규모 VQA 데이터셋에서 수행된 철저한 실험 결과에 따르면, 제안하는 방법은 기존의 최신 기법들과 비교하여 우수한 정확도를 달성하였다. 또한, 본 추론 프레임워크는 딥 신경망이 답변을 예측할 때의 결정 과정을 설명 가능한 방식으로 해석할 수 있는 가능성을 제공한다.