17일 전

BROS: 문서에서 키 정보 추출을 위한 텍스트와 레이아웃에 초점을 맞춘 사전 훈련된 언어 모델

Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park
BROS: 문서에서 키 정보 추출을 위한 텍스트와 레이아웃에 초점을 맞춘 사전 훈련된 언어 모델
초록

문서 이미지에서의 핵심 정보 추출(Key Information Extraction, KIE)은 2차원(2D) 공간 내 텍스트의 문맥적 및 공간적 의미를 이해하는 것을 요구한다. 최근 많은 연구들은 문서 이미지의 시각적 특징과 텍스트, 그리고 레이아웃을 결합하는 데 초점을 맞춘 사전 학습 언어 모델을 개발하여 이 과제를 해결하려고 한다. 반면 본 논문은 기본에 돌아가 텍스트와 레이아웃을 효과적으로 통합하는 방식으로 문제를 접근한다. 구체적으로, 2D 공간 내 텍스트 간의 상대적 위치를 인코딩하고, 면적 마스킹(area-masking) 전략을 활용해 레이블이 없는 문서에서 학습하는 사전 학습 언어 모델인 BROS(BERT Relying On Spatiality)를 제안한다. 2D 공간 내 텍스트 이해를 위한 최적화된 학습 방식을 통해 BROS는 시각적 특징을 사용하지 않고도 FUNSD, SROIE*, CORD, SciTSR 등 네 가지 KIE 벤치마크에서 기존 방법과 비교해 유사하거나 우수한 성능을 보였다. 또한 본 논문은 KIE 작업에서 실질적으로 존재하는 두 가지 도전 과제—(1) 잘못된 텍스트 순서로 인한 오류 최소화, (2) 적은 다운스트림 예시로부터 효율적으로 학습하는 것—을 제시하고, BROS가 기존 방법보다 우수함을 입증한다. 코드는 https://github.com/clovaai/bros 에서 공개되어 있다.