
초록
최근 기계 독해 이해에 관한 연구들은 텍스트 수준의 이해에 초점을 맞추고 있으나, 현실 세계의 문서에 대한 시각적 레이아웃과 콘텐츠에 대한 인간 수준의 이해에는 아직 도달하지 못했다. 본 연구에서는 질문과 문서 이미지가 주어졌을 때, 기계가 이미지 내 텍스트를 읽고 이해하여 자연어로 질문에 답하는 새로운 시각적 기계 독해 데이터셋인 VisualMRC를 제안한다. 기존의 이미지 내 텍스트를 포함하는 시각적 질의응답(VQA) 데이터셋과 비교해 VisualMRC는 자연어 이해 및 생성 능력의 개발에 더 중점을 둔다. 이 데이터셋은 웹페이지의 다양한 도메인에서 수집한 1만 개 이상의 문서 이미지에 대해 3만 개 이상의 질문-개괄적 답변 쌍을 포함하고 있다. 또한, 기존의 대규모 텍스트 코퍼스로 사전 훈련된 시퀀스-투-시퀀스 모델을 확장하여 문서의 시각적 레이아웃과 콘텐츠를 고려할 수 있도록 하는 새로운 모델을 제안한다. VisualMRC를 활용한 실험 결과, 제안된 모델은 기준 시퀀스-투-시퀀스 모델과 최신 VQA 모델보다 우수한 성능을 보였으나, 대부분의 자동 평가 지표에서 여전히 인간의 성능에 미치지 못하는 것으로 나타났다. 본 데이터셋은 시각과 언어 이해 간의 연결을 위한 연구를 촉진할 것으로 기대된다.