2달 전
읽기 순서가 중요하다: 시각적으로 풍부한 문서에서 토큰 경로 예측을 통한 정보 추출
Zhang, Chong ; Guo, Ya ; Tu, Yi ; Chen, Huan ; Tang, Jinyang ; Zhu, Huijia ; Zhang, Qi ; Gui, Tao

초록
최근 다중 모드 사전 학습 모델의 발전으로 시각적으로 풍부한 문서(VrDs)에서의 정보 추출이 크게 개선되었습니다. 이 과정에서 명명된 개체 인식(NER)은 자연어 처리(NLP)의 일반적인 설정에 따라 토큰에 대한 BIO 엔티티 태그를 예측하는 시퀀스 라벨링 작업으로 취급됩니다. 그러나, BIO 태깅 체계는 모델 입력의 올바른 순서에 의존하며, 이는 실제 세계에서 스캔된 VrDs 상에서 OCR 시스템에 의해 인식되고 배열되는 텍스트에서는 보장되지 않습니다. 이러한 읽기 순서 문제는 BIO 태깅 체계가 엔티티를 정확히 표시하는 것을 방해하여, 시퀀스 라벨링 방법이 올바른 명명된 엔티티를 예측하는 것이 불가능하게 만듭니다.이 읽기 순서 문제를 해결하기 위해, 우리는 토큰 경로 예측(Token Path Prediction, TPP)을 소개합니다. TPP는 단순한 예측 헤드로, 문서 내의 엔티티 언급을 토큰 시퀀스로 예측합니다. 토큰 분류와 달리, TPP는 문서 레이아웃을 완전한 유향 그래프로 모델링하고, 그래프 내의 토큰 경로를 엔티티로 예측합니다. 또한, 스캔된 문서 상에서 NER 시스템을 더 잘 평가하기 위해 두 가지 수정된 벤치마크 데이터셋을 제안합니다. 이 데이터셋들은 실제 세계 시나리오를 반영할 수 있습니다.실험 결과는 우리의 방법론이 효과적임을 입증하며, 다양한 문서 정보 추출 작업에 대한 보편적인 해결책이 될 가능성을 제시하고 있습니다.