17일 전

더블린 -- 언어-이미지 네트워크를 통한 문서 이해

Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary
더블린 -- 언어-이미지 네트워크를 통한 문서 이해
초록

시각 문서 이해는 문서 이미지 내 텍스트와 시각적 요소를 동시에 분석하는 복잡한 과제이다. 기존 모델들은 일반적으로 수동적인 특징 엔지니어링 또는 도메인 특화된 파이프라인에 의존하기 때문에, 다양한 문서 유형과 언어 간의 일반화 능력이 제한된다. 본 논문에서는 웹 페이지를 대상으로 사전 훈련된 DUBLIN을 제안한다. 이 모델은 문서 이미지 내 공간적 정보와 의미적 정보를 활용하는 세 가지 새로운 사전 훈련 목표—마스킹된 문서 텍스트 생성 작업(Masked Document Text Generation Task), 경계 상자 예측 작업(Bounding Box Task), 렌더링된 질문 응답 작업(Rendered Question Answering Task)—를 사용한다. 제안된 모델은 Web-Based Structural Reading Comprehension, Document Visual Question Answering, 핵심 정보 추출, 다이어그램 이해, 표 질문 응답 등 여러 벤치마크에서 경쟁력 있는 또는 최첨단 성능을 달성하였다. 특히 DUBLIN은 웹SRC 데이터셋에서 EM(Exact Match) 77.75, F1 점수 84.25를 기록하며, 최초로 픽셀 기반 모델로서 이 성능을 달성한 것으로 확인하였다. 또한, DocVQA, InfographicsVQA, OCR-VQA, AI2D 데이터셋에서 현재의 픽셀 기반 최고 성능 모델보다 각각 4.6%, 6.5%, 2.6%, 21%의 성능 향상을 보였다. RVL-CDIP 문서 분류 작업에서도 경쟁적인 성능을 기록하였다. 더불어, 텍스트 기반 데이터셋을 문서 이미지 형태로 렌더링함으로써 이 분야의 연구를 촉진하기 위해 새로운 벤치마크를 제시하였다.

더블린 -- 언어-이미지 네트워크를 통한 문서 이해 | 최신 연구 논문 | HyperAI초신경