2달 전

시각적으로 풍부한 문서에서 강화된 관계 추출을 위한 LayoutLMv3 기반 모델

Wiam Adnan; Joel Tang; Yassine Bel Khayat Zouggari; Seif Edinne Laatiri; Laurent Lam; Fabien Caspani
시각적으로 풍부한 문서에서 강화된 관계 추출을 위한 LayoutLMv3 기반 모델
초록

문서 이해는 자연어 처리(NLP) 분야에서 발전하고 있는 연구 영역입니다. 특히, 원시 텍스트 자체 외에도 시각적 및 공간적 특성이 필수적이므로, 시각적 문서 이해(VDU) 분야에서는 여러 다중모달 모델이 개발되었습니다. 그러나 연구의 주요 초점이 주요 정보 추출(KIE)에 맞춰져 있는 반면, 식별된 엔티티 간의 관계 추출(RE)은 여전히 충분히 연구되지 않고 있습니다. 예를 들어, RE는 문서 내의 엔티티를 재구성하거나 데이터의 포괄적인 계층 구조를 얻는 데 매우 중요합니다. 본 논문에서는 LayoutLMv3을 기반으로 초기화된 모델을 제시합니다. 이 모델은 FUNSD와 CORD 데이터셋에서 시각적으로 풍부한 문서(VRD)에 적용되는 RE에서 현재 최신 결과와 일치하거나 이를 능가할 수 있으며, 특정 사전 학습 없이 그리고 더 적은 매개변수로도 가능합니다. 또한, 우리는 FUNSD에서 수행한 광범위한 절삭 실험(ablation study) 결과를 보고하며, 이 실험은 성능에 미치는 특정 특성과 모델 설계 선택의 큰 영향을 강조합니다.