한 달 전
신경망 자기 대화: 지속적인 질문과 답변을 통한 이미지 이해
Yezhou Yang; Yi Li; Cornelia Fermuller; Yiannis Aloimonos

초록
본 논문에서는 이미지 기반 질문을 적극적으로 제시하고 그 질문에 대한 답변을 제공하여 이미지 내용을 지속적으로 발견하는 문제를 다룹니다. 주요 구성 요소는 시각적 질문 생성(Visual Question Generation, VQG) 모듈과 시각적 질문 응답(Visual Question Answering, VQA) 모듈로, 이들 모듈에서 순환 신경망(Recurrent Neural Networks, RNN)과 합성곱 신경망(Convolutional Neural Network, CNN)이 사용됩니다. 이미지, 질문 및 답변이 포함된 데이터셋이 주어질 때, 두 모듈은 동시에 훈련되지만 VQG는 이미지를 입력으로 사용하고 해당 질문을 출력으로 생성하며, VQA는 이미지와 질문을 입력으로 사용하고 해당 답변을 출력으로 생성합니다. 우리는 아마존 메커니컬 터크(Amazon Mechanical Turk)를 통해 자가 대화 과정을 주관적으로 평가하였으며, 이는 제안된 방법의 효과성을 보여줍니다.