
초록
본 연구는 이미지 기반 질문-답변(QA) 문제를 새로운 모델과 데이터셋을 통해 해결하고자 합니다. 본 연구에서 우리는 객체 검출 및 이미지 분할 등의 중간 단계 없이 신경망과 시각적 의미 임베딩을 사용하여 이미지에 대한 간단한 질문의 답변을 예측하는 방법을 제안합니다. 우리의 모델은 기존 이미지 QA 데이터셋에서 유일하게 발표된 결과보다 1.8배 더 우수한 성능을 보입니다. 또한, 널리 사용되는 이미지 설명을 QA 형식으로 변환하는 질문 생성 알고리즘을 소개합니다. 이 알고리즘을 사용하여 답변 분포가 더욱 균형잡힌 10배 크기의 데이터셋을 생성하였습니다. 이 새로운 데이터셋에 대한 기준선 결과도 함께 제시됩니다.