2달 전

시각적으로 풍부한 문서 이해를 위한 레이아웃 읽기 순서의 순서 관계 모델링

Chong Zhang; Yi Tu; Yixi Zhao; Chenshu Yuan; Huan Chen; Yue Zhang; Mingxu Chai; Ya Guo; Huijia Zhu; Qi Zhang; Tao Gui
시각적으로 풍부한 문서 이해를 위한 레이아웃 읽기 순서의 순서 관계 모델링
초록

시각적으로 풍부한 문서(VrDs)에서 레이아웃 읽기 순서를 모델링하고 활용하는 것은 문서 내의 풍부한 구조적 의미를 포착하기 때문에 문서 인텔리전스에서 매우 중요합니다. 이전 연구들은 일반적으로 레이아웃 요소들의 순열로 레이아웃 읽기 순서를 정식화하였습니다. 즉, 모든 레이아웃 요소를 포함하는 시퀀스입니다. 그러나 우리는 이러한 정식화가 레이아웃 내의 완전한 읽기 순서 정보를 충분히 전달하지 못한다고 주장하며, 이는 후속 VrD 작업의 성능 저하를 초래할 수 있다고 지적합니다. 이를 해결하기 위해, 우리는 레이아웃 요소 집합 위에서의 순서 관계로 레이아웃 읽기 순서를 모델링하는 방법을 제안합니다. 이 방법은 완전한 읽기 순서 정보에 대해 충분한 표현력을 가지고 있습니다. 개선된 형태의 읽기 순서 예측(ROP) 방법에 대한 실증적 평가를 가능하게 하기 위해, 우리는 레이아웃 요소 간의 관계로 구성된 읽기 순서 주석을 포함하여 포괄적인 벤치마크 데이터셋을 구축하였으며, 이와 함께 기존 방법들을 능가하는 관계 추출 기반 방법을 제안하였습니다. 또한, 개선된 형태의 레이아웃 읽기 순서 도입의 실제 혜택을 강조하기 위해, 임의의 VrD 작업에서 모델 성능을 향상시키는 추가적인 읽기 순서 관계 입력을 도입하는 파이프라인을 제안하였습니다. 포괄적인 결과는 파이프라인이 일반적으로 후속 VrD 작업에 유익함을 보여줍니다: (1) 읽기 순서 관계 정보를 활용함으로써, 강화된 후속 모델들은 대상 데이터셋의 두 가지 작업 설정 모두에서 최고 수준(SOTA) 결과를 달성하였습니다; (2) 제안된 ROP 모델에 의해 생성된 의사 읽기 순서 정보를 활용함으로써, 세 가지 모델과 여덟 가지 크로스도메인 VrD-IE/QA 작업 설정에서 타겟 최적화 없이도 강화된 모델들의 성능이 개선되었습니다.

시각적으로 풍부한 문서 이해를 위한 레이아웃 읽기 순서의 순서 관계 모델링 | 최신 연구 논문 | HyperAI초신경