2달 전

GeoLayoutLM: 시각적 정보 추출을 위한 기하학적 사전 학습

Luo, Chuwei ; Cheng, Changxu ; Zheng, Qi ; Yao, Cong
GeoLayoutLM: 시각적 정보 추출을 위한 기하학적 사전 학습
초록

시각적 정보 추출(Visual Information Extraction, VIE)은 문서 지능(Document Intelligence)에서 중요한 역할을 합니다. 일반적으로 VIE는 두 가지 작업으로 나뉩니다: 의미론적 엔티티 인식(Semantic Entity Recognition, SER)과 관계 추출(Relation Extraction, RE). 최근에 문서를 위한 사전 학습 모델들은 특히 SER에서 VIE에 있어 상당한 진전을 이루었습니다. 그러나 대부분의 기존 모델들은 기하학적 표현을 암시적인 방식으로 학습하는데, 이는 RE 작업에 부족하다는 것이 발견되었습니다. 왜냐하면 기하학적 정보는 RE에 있어서 특히 중요하기 때문입니다. 또한, 우리는 RE 성능을 제한하는 요인 중 하나가 RE를 위한 사전 학습 단계와 미세 조정(fine-tuning) 단계 사이의 목적 간극(objective gap)에 있음을 밝혔습니다. 이러한 문제들을 해결하기 위해 본 논문에서는 VIE를 위한 다중 모달(multi-modal) 프레임워크인 GeoLayoutLM을 제안합니다.GeoLayoutLM은 사전 학습 과정에서 명시적으로 기하학적 관계를 모델링하며, 이를 기하학적 사전 학습(geometric pre-training)이라고 합니다. 기하학적 사전 학습은 세 가지 특별히 설계된 기하학 관련 사전 학습 작업을 통해 이루어집니다. 또한, 기하학적 사전 학습 작업으로 사전 학습되고 RE를 위해 미세 조정되는 새로운 관계 헤드(relation heads)들이 세심하게 설계되어 특징 표현(feature representation)을 풍부하고 강화시키기 위해 사용됩니다. 표준 VIE 벤치마크에서 수행된 광범위한 실험 결과에 따르면, GeoLayoutLM은 SER 작업에서 매우 경쟁력 있는 점수를 달성하였으며, RE 작업에서는 이전 최신 연구(state-of-the-arts)보다 크게 우수한 성능(\예: FUNSD 데이터셋에서 RE의 F1 점수가 80.35%에서 89.45%로 향상됨)을 보였습니다. 코드와 모델은 다음 주소에서 공개적으로 이용 가능합니다: https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM

GeoLayoutLM: 시각적 정보 추출을 위한 기하학적 사전 학습 | 최신 연구 논문 | HyperAI초신경