2달 전
DocTr: 문서에서 구조화된 정보 추출을 위한 문서 변환기
Haofu Liao; Aruni RoyChowdhury; Weijian Li; Ankan Bansal; Yuting Zhang; Zhuowen Tu; Ravi Kumar Satzoda; R. Manmatha; Vijay Mahadevan

초록
시각적으로 풍부한 문서에서 구조화된 정보 추출을 위한 새로운 공식화를 제시합니다. 이는 기존의 IOB 태깅 또는 그래프 기반 공식화가 입력 텍스트의 올바른 순서에 지나치게 의존하거나 복잡한 그래프를 디코딩하는 데 어려움을 겪는 문제를 해결하기 위해 설계되었습니다. 대신 시각 인식 분야의 앵커 기반 객체 검출기에서 영감을 얻어, 엔티티를 앵커 단어와 바운딩 박스로 표현하고, 엔티티 링킹을 앵커 단어 간의 연관성으로 표현합니다. 이 방법은 텍스트 순서에 대해 더 강건하며, 엔티티 링킹을 위한 컴팩트한 그래프를 유지합니다. 이러한 공식화는 1) 시각적으로 풍부한 문서에서 엔티티 바운딩 박스를 감지하고 연관시키는 것을 목표로 하는 DOCument TRansformer (DocTr)와 2) 언어 문맥에서 엔티티 감지를 학습하는 데 도움이 되는 간단한 사전 학습 전략을 도입하도록 유도합니다. 세 개의 SIE 벤치마크에서 수행된 평가는 제안된 공식화의 효과성을 보여주며, 전체 접근 방식은 기존 솔루션보다 우수한 성능을 나타냅니다.