7일 전

LAMBERT: 정보 추출을 위한 레이아웃 인지(Language) 모델링

Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Michał Turski, Filip Graliński
LAMBERT: 정보 추출을 위한 레이아웃 인지(Language) 모델링
초록

문서 이해 문제, 특히 시각적 레이아웃이 국소적 의미에 중대한 영향을 미치는 경우에 대해 간단하면서도 새로운 접근 방식을 제안한다. 이를 위해 OCR 시스템으로부터 얻은 레이아웃 특징을 활용할 수 있도록 Transformer 인코더 아키텍처를 수정하였으며, 언어 의미를 다시 처음부터 재학습할 필요 없이 기존의 언어 학습 결과를 유지한다. 모델의 입력에 토큰 경계 박스의 좌표만 추가함으로써 원시 이미지 사용을 피하며, 레이아웃 인지 능력을 갖춘 언어 모델을 구축할 수 있다. 이후 이러한 모델은 하류 작업에 대해 미세 조정(fine-tuning)이 가능하다.본 모델은 네 가지 공개된 데이터셋(Kleister NDA, Kleister Charity, SROIE, CORD)을 활용한 엔드투엔드 정보 추출 작업에서 평가되었다. 시각적으로 풍부한 문서로 구성된 데이터셋에서는 우수한 성능을 보였으며, 평평한 레이아웃을 가진 문서(예: NDA)에 대해서도 기준 모델인 RoBERTa보다 우수한 성능을 나타내었으며, F₁ 점수는 78.50에서 80.42로 상승하였다. 특히 SROIE 데이터셋의 키 정보 추출 과제에서 공개 리더보드에서 1위를 기록하였으며, 기존 최고 성능(SOTA)의 F₁ 점수 97.81을 98.17로 향상시켰다.

LAMBERT: 정보 추출을 위한 레이아웃 인지(Language) 모델링 | 최신 연구 논문 | HyperAI초신경