17일 전

DocVQA: 문서 이미지에 대한 VQA를 위한 데이터셋

Minesh Mathew, Dimosthenis Karatzas, C.V. Jawahar
DocVQA: 문서 이미지에 대한 VQA를 위한 데이터셋
초록

문서 이미지에 대한 시각적 질문 응답(Visual Question Answering, VQA)을 위한 새로운 데이터셋인 DocVQA를 제안한다. 이 데이터셋은 12,000개 이상의 문서 이미지에 기반하여 구성된 총 50,000개의 질문으로 이루어져 있다. 기존의 유사한 VQA 및 독해 이해 데이터셋과의 비교를 통해 데이터셋에 대한 심층적인 분석을 제공한다. 기존의 VQA 및 독해 이해 모델을 활용하여 여러 기준 모델 성능을 보고한다. 기존 모델은 특정 유형의 질문에서는 합리적인 성능을 보이지만, 인간의 성능(94.36% 정확도)과 비교했을 때 여전히 큰 성능 격차가 존재한다. 특히 문서의 구조적 이해가 핵심이 되는 질문 유형에 대해서는 모델의 성능 향상이 더욱 시급하다. 본 데이터셋, 코드 및 랭킹 시스템은 docvqa.org에서 공개되어 있다.

DocVQA: 문서 이미지에 대한 VQA를 위한 데이터셋 | 최신 연구 논문 | HyperAI초신경