15일 전
텍스트-이미지-레이아웃 트랜스포머를 활용한 문서 이해에서 완전한 TILT 보지 기술 구사하기
Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka

초록
일반 텍스트 문서를 넘어서 자연어 이해의 도전적인 문제에 대응하기 위해, 레이아웃 정보, 시각적 특징, 텍스트 의미를 동시에 학습할 수 있는 TILT 신경망 아키텍처를 제안한다. 기존의 접근 방식과 달리, 자연어를 포함한 다양한 문제를 통합적으로 처리할 수 있는 디코더에 의존한다. 레이아웃은 어텐션 편향(attention bias)으로 표현되며, 맥락화된 시각 정보와 함께 보완된다. 본 모델의 핵심은 사전 훈련된 인코더-디코더 트랜스포머 아키텍처이다. 제안하는 새로운 접근 방식은 레이아웃 이해가 필요한 정보 추출 및 질문 응답 작업(예: DocVQA, CORD, SROIE)에서 최신 기준(SOTA) 성능을 달성한다. 동시에 엔드투엔드 모델을 활용함으로써 전체 처리 과정을 단순화하였다.