17일 전
BROS: 문서에서 키 정보 추출을 위한 텍스트와 레이아웃에 초점을 맞춘 사전 훈련된 언어 모델
Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park

초록
문서 이미지에서의 핵심 정보 추출(Key Information Extraction, KIE)은 2차원(2D) 공간 내 텍스트의 문맥적 및 공간적 의미를 이해하는 것을 요구한다. 최근 많은 연구들은 문서 이미지의 시각적 특징과 텍스트, 그리고 레이아웃을 결합하는 데 초점을 맞춘 사전 학습 언어 모델을 개발하여 이 과제를 해결하려고 한다. 반면 본 논문은 기본에 돌아가 텍스트와 레이아웃을 효과적으로 통합하는 방식으로 문제를 접근한다. 구체적으로, 2D 공간 내 텍스트 간의 상대적 위치를 인코딩하고, 면적 마스킹(area-masking) 전략을 활용해 레이블이 없는 문서에서 학습하는 사전 학습 언어 모델인 BROS(BERT Relying On Spatiality)를 제안한다. 2D 공간 내 텍스트 이해를 위한 최적화된 학습 방식을 통해 BROS는 시각적 특징을 사용하지 않고도 FUNSD, SROIE*, CORD, SciTSR 등 네 가지 KIE 벤치마크에서 기존 방법과 비교해 유사하거나 우수한 성능을 보였다. 또한 본 논문은 KIE 작업에서 실질적으로 존재하는 두 가지 도전 과제—(1) 잘못된 텍스트 순서로 인한 오류 최소화, (2) 적은 다운스트림 예시로부터 효율적으로 학습하는 것—을 제시하고, BROS가 기존 방법보다 우수함을 입증한다. 코드는 https://github.com/clovaai/bros 에서 공개되어 있다.