2달 전

실세계 시각적으로 풍부한 문서 정보 추출에서 사전 학습된 텍스트 및 레이아웃 모델의 부족함 폭로

Chong Zhang; Yixi Zhao; Yulu Xie; Chenshu Yuan; Yi Tu; Ya Guo; Mingxu Chai; Ziyu Shen; Yue Zhang; Qi Zhang
실세계 시각적으로 풍부한 문서 정보 추출에서 사전 학습된 텍스트 및 레이아웃 모델의 부족함 폭로
초록

최근 개발된 사전 학습 텍스트 및 레이아웃 모델(PTLMs)은 시각적으로 풍부한 문서(VrDs)에서의 다중 정보 추출 작업에서 뛰어난 성공을 거두었습니다. 그러나 벤치마크에서 극히 높은 성능을 달성했음에도 불구하고, 실제 세계에서는 기대에 미치지 못하는 성능을 보이고 있습니다. 이 문제를 해결하기 위해, 우리는 현재 사용되고 있는 평가 파이프라인을 조사하여 다음과 같은 사실을 밝혔습니다: (1) 벤치마크 데이터셋 내의 부족한 주석들이 작업 입력과 라벨 사이에 허위 상관 관계를 도입하여, 모델 성능에 대한 지나치게 낙관적인 추정을 초래합니다. (2) 평가는 벤치마크 성능에만 의존하고 있어, 실제 세계 시나리오에서의 방법론의 능력을 포괄적으로 탐구하는 데 충분하지 않습니다. 이러한 문제들은 현재 사용되고 있는 평가 파이프라인이 실제 세계 성능을 반영하지 못하게 하며, 방법론 최적화의 설계 선택을 오도합니다. 본 연구에서는 EC-FUNSD라는 시각적으로 풍부한 문서에서 정보 추출을 위한 엔티티 중심 데이터셋을 소개합니다. 이 데이터셋은 다양한 레이아웃과 고품질 주석들을 포함하고 있습니다. 또한, 이 데이터셋은 FUNSD의 블록 단위 주석으로 인해 발생하는 잘못 연결된 세그먼트와 엔티티 주석들을 분리시킵니다. 제안된 데이터셋을 사용하여, 우리는 PTLMs의 실제 세계 정보 추출 능력을 다방면으로 평가하였습니다. 이는 절대 성능뿐만 아니라 일반화, 강건성 및 공평성을 포함합니다. 결과는 널리 사용되는 PTLMs가 실제 세계 정보 추출 시나리오에서 예상만큼 잘 수행되지 않는다는 것을 나타냅니다. 우리는 본 연구가 PTLM 개발 방향에 대한 깊은 고찰을 촉구할 수 있기를 바랍니다.