문서 레이아웃 분석을 위한 Vision Grid Transformer

문서 사전 학습 모델과 그리드 기반 모델은 문서 AI의 다양한 작업에서 매우 효과적임이 입증되었습니다. 그러나 문서 레이아웃 분석(DLA) 작업에 대해서는, 기존의 문서 사전 학습 모델들, 심지어 다중 모달 방식으로 사전 학습된 모델들조차도 주로 텍스트 특징이나 시각적 특징 중 하나에 의존합니다. DLA를 위한 그리드 기반 모델들은 다중 모달이지만, 사전 학습의 영향을 크게 무시하고 있습니다. 다중 모달 정보를 완전히 활용하고 사전 학습 기술을 활용하여 DLA에 더 나은 표현을 학습하기 위해, 본 논문에서는 두 개의 스트림을 가진 Vision Grid Transformer(VGT)를 제안합니다. 여기서 Grid Transformer(GiT)가 2D 토큰 수준 및 세그먼트 수준의 의미 이해를 위해 제안되고 사전 학습됩니다. 또한, 현재까지 가장 다양하고 상세한 수작업 어노테이션 벤치마크인 새로운 데이터셋 D$^4$LA가 구성되어 공개되었습니다. 실험 결과는 제안된 VGT 모델이 DLA 작업에서 새로운 최고 성능 결과를 달성하였음을 보여주며, 예를 들어 PubLayNet($95.7\% \rightarrow 96.2\%$), DocBank($79.6\% \rightarrow 84.1\%$), 그리고 D$^4$LA($67.7\% \rightarrow 68.8\%$)에서 확인할 수 있습니다. 코드와 모델, 그리고 D$^4$LA 데이터셋은 공개될 예정입니다 ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.