2달 전

DocTr: 문서에서 구조화된 정보 추출을 위한 문서 변환기

Haofu Liao; Aruni RoyChowdhury; Weijian Li; Ankan Bansal; Yuting Zhang; Zhuowen Tu; Ravi Kumar Satzoda; R. Manmatha; Vijay Mahadevan
DocTr: 문서에서 구조화된 정보 추출을 위한 문서 변환기
초록

시각적으로 풍부한 문서에서 구조화된 정보 추출을 위한 새로운 공식화를 제시합니다. 이는 기존의 IOB 태깅 또는 그래프 기반 공식화가 입력 텍스트의 올바른 순서에 지나치게 의존하거나 복잡한 그래프를 디코딩하는 데 어려움을 겪는 문제를 해결하기 위해 설계되었습니다. 대신 시각 인식 분야의 앵커 기반 객체 검출기에서 영감을 얻어, 엔티티를 앵커 단어와 바운딩 박스로 표현하고, 엔티티 링킹을 앵커 단어 간의 연관성으로 표현합니다. 이 방법은 텍스트 순서에 대해 더 강건하며, 엔티티 링킹을 위한 컴팩트한 그래프를 유지합니다. 이러한 공식화는 1) 시각적으로 풍부한 문서에서 엔티티 바운딩 박스를 감지하고 연관시키는 것을 목표로 하는 DOCument TRansformer (DocTr)와 2) 언어 문맥에서 엔티티 감지를 학습하는 데 도움이 되는 간단한 사전 학습 전략을 도입하도록 유도합니다. 세 개의 SIE 벤치마크에서 수행된 평가는 제안된 공식화의 효과성을 보여주며, 전체 접근 방식은 기존 솔루션보다 우수한 성능을 나타냅니다.

DocTr: 문서에서 구조화된 정보 추출을 위한 문서 변환기 | 최신 연구 논문 | HyperAI초신경