11일 전

VisualMRC: 문서 이미지 위의 기계 독해 이해

Ryota Tanaka, Kyosuke Nishida, Sen Yoshida
VisualMRC: 문서 이미지 위의 기계 독해 이해
초록

최근 기계 독해 이해에 관한 연구들은 텍스트 수준의 이해에 초점을 맞추고 있으나, 현실 세계의 문서에 대한 시각적 레이아웃과 콘텐츠에 대한 인간 수준의 이해에는 아직 도달하지 못했다. 본 연구에서는 질문과 문서 이미지가 주어졌을 때, 기계가 이미지 내 텍스트를 읽고 이해하여 자연어로 질문에 답하는 새로운 시각적 기계 독해 데이터셋인 VisualMRC를 제안한다. 기존의 이미지 내 텍스트를 포함하는 시각적 질의응답(VQA) 데이터셋과 비교해 VisualMRC는 자연어 이해 및 생성 능력의 개발에 더 중점을 둔다. 이 데이터셋은 웹페이지의 다양한 도메인에서 수집한 1만 개 이상의 문서 이미지에 대해 3만 개 이상의 질문-개괄적 답변 쌍을 포함하고 있다. 또한, 기존의 대규모 텍스트 코퍼스로 사전 훈련된 시퀀스-투-시퀀스 모델을 확장하여 문서의 시각적 레이아웃과 콘텐츠를 고려할 수 있도록 하는 새로운 모델을 제안한다. VisualMRC를 활용한 실험 결과, 제안된 모델은 기준 시퀀스-투-시퀀스 모델과 최신 VQA 모델보다 우수한 성능을 보였으나, 대부분의 자동 평가 지표에서 여전히 인간의 성능에 미치지 못하는 것으로 나타났다. 본 데이터셋은 시각과 언어 이해 간의 연결을 위한 연구를 촉진할 것으로 기대된다.

VisualMRC: 문서 이미지 위의 기계 독해 이해 | 최신 연구 논문 | HyperAI초신경