11일 전
VSR: 시각, 의미 및 관계를 통합한 문서 레이아웃 분석을 위한 통합 프레임워크
Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu

초록
문서 레이아웃 분석은 문서 구조를 이해하는 데 있어 핵심적인 역할을 한다. 이 작업에서는 문서의 비전 정보와 의미 정보, 그리고 레이아웃 구성 요소 간의 관계가 이해 과정에 기여한다. 비록 이러한 정보를 활용하려는 많은 연구가 제안되었지만, 그 결과는 만족스럽지 못하다. NLP 기반 방법들은 레이아웃 분석을 시퀀스 레이블링 문제로 모델링하지만, 레이아웃 모델링 능력이 부족하다. 반면, CV 기반 방법들은 레이아웃 분석을 탐지 또는 세그멘테이션 문제로 다루지만, 모달리티 간 융합의 비효율성과 구성 요소 간 관계 모델링의 부재라는 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 비전, 의미, 관계를 통합적으로 고려하는 새로운 프레임워크 VSR을 제안한다. VSR은 NLP 기반 및 CV 기반 방법 모두를 지원한다. 구체적으로, 문서 이미지를 통해 비전 정보를 도입하고, 텍스트 임베딩 맵을 통해 의미 정보를 활용한다. 이후 이중 스트림 네트워크를 사용하여 모달리티별로 시각적 및 의미적 특징을 추출하고, 이를 적응적으로 융합함으로써 보완적인 정보를 최대한 활용한다. 마지막으로, 구성 요소 후보들을 기반으로 그래프 신경망(GNN) 기반의 관계 모듈을 도입하여 구성 요소 간의 관계를 모델링하고 최종 결과를 출력한다. 세 가지 주요 벤치마크에서 VSR은 기존 모델들을 크게 능가하며, 우수한 성능을 보였다. 관련 코드는 곧 공개될 예정이다.