시각 대화에서 신경 모듈 네트워크를 사용한 시각 공지 해결

시각적 대화는 이미지를 기반으로 하는 질문 시리즈에 답하는 것을 포함하며, 이때 대화의 역사를 문맥으로 사용합니다. 시각적 질문 응답(VQA)에서 볼 수 있는 도전 과제들 외에도, 시각적 대화는 여러 가지 추가적인 문제를 포괄합니다. 우리는 이러한 문제 중 하나인 시각적 공지성 해결(visual coreference resolution)에 초점을 맞춥니다. 이 문제는 일반적으로 명사 구와 대명사를 포함하여, 이미지 내에서 동일한 개체/객체 인스턴스를 참조하는 단어들을 결정하는 것입니다. 특히 대명사(예: 'it')의 경우, 대화 에이전트가 먼저 이전의 공지성을('boat'와 같은) 연결해야 하며, 그 후에야 'boat'라는 공지성의 시각적 근거를 바탕으로 'it'에 대해 추론할 수 있습니다. 이전 연구에서는 (a) 역사 위에서 작동하는 메모리 네트워크를 통해 암시적으로 또는 (b) 전체 질문에 대한 거친 수준에서 시각적 공지성 해결을 모델링하였으며, 구문 수준의 세밀한 분석은 이루어지지 않았습니다. 본 연구에서는 두 가지 새로운 모듈인 참조(Refer)와 제외(Exclude)를 도입하여, 더 세밀한 단어 수준에서 명시적이고 근거된 공지성 해결을 수행하는 신경 모듈 네트워크 구조를 제안합니다. 우리는 MNIST Dialog 데이터셋에서 거의 완벽한 정확도를 달성함으로써 우리의 모델의 효과성을 입증하였습니다. 이 데이터셋은 시각적으로는 간단하지만 공지성 측면에서는 복잡합니다. 또한 실제 이미지를 사용한 큰 규모의 어려운 시각적 대화 데이터셋인 VisDial에서도 우리의 모델이 다른 접근 방식보다 우수하며, 해석 가능하고 근거적이며 일관성이 있음을 질적으로 보여주었습니다.