15일 전

텍스트-이미지-레이아웃 트랜스포머를 활용한 문서 이해에서 완전한 TILT 보지 기술 구사하기

Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka
텍스트-이미지-레이아웃 트랜스포머를 활용한 문서 이해에서 완전한 TILT 보지 기술 구사하기
초록

일반 텍스트 문서를 넘어서 자연어 이해의 도전적인 문제에 대응하기 위해, 레이아웃 정보, 시각적 특징, 텍스트 의미를 동시에 학습할 수 있는 TILT 신경망 아키텍처를 제안한다. 기존의 접근 방식과 달리, 자연어를 포함한 다양한 문제를 통합적으로 처리할 수 있는 디코더에 의존한다. 레이아웃은 어텐션 편향(attention bias)으로 표현되며, 맥락화된 시각 정보와 함께 보완된다. 본 모델의 핵심은 사전 훈련된 인코더-디코더 트랜스포머 아키텍처이다. 제안하는 새로운 접근 방식은 레이아웃 이해가 필요한 정보 추출 및 질문 응답 작업(예: DocVQA, CORD, SROIE)에서 최신 기준(SOTA) 성능을 달성한다. 동시에 엔드투엔드 모델을 활용함으로써 전체 처리 과정을 단순화하였다.