TRUST: 분할 기반 트랜스포머를 사용한 정확하고 엔드투엔드 테이블 구조 인식기

표 구조 인식은 문서 이미지 분석 영역에서 중요한 부분입니다. 이 작업의 어려움은 각 셀의 물리적 좌표와 논리적 인덱스를 동시에 해석해야 하는 데 있습니다. 그러나 기존 방법들은 표 분할선이 흐리거나 기울어진 경우 특히 이러한 두 가지 목표를 모두 달성하기가 어렵습니다. 본 논문에서는 정확하고 단일화된 트랜스포머 기반 표 구조 인식 방법을 제안하며, 이를 TRUST라고 명명합니다. 트랜스포머는 전역 계산, 완벽한 메모리, 병렬 계산 등의 특성으로 인해 표 구조 인식에 적합합니다. 새로운 트랜스포머 기반 쿼리 기반 분할 모듈(Query-based Splitting Module)과 꼭짓점 기반 병합 모듈(Vertex-based Merging Module)을 도입함으로써, 표 구조 인식 문제는 두 개의 연관 최적화 하위 작업으로 분리됩니다: 다방향 표 행/열 분할과 표 그리드 병합. 쿼리 기반 분할 모듈은 트랜스포머 네트워크를 통해 장거리 의존성을 갖는 강력한 문맥 정보를 학습하여, 다방향 표 행/열 구분자를 정확히 예측하고, 이에 따라 표의 기본 그리드를 얻습니다. 꼭짓점 기반 병합 모듈은 인접한 기본 그리드 간의 국부적인 문맥 정보를 집계할 수 있으며, 동일한 확장 셀에 속하는 기본 그리드를 정확하게 병합하는 능력을 제공합니다. 우리는 PubTabNet과 SynthTable 등 여러 유명 벤치마크에서 실험을 수행하였으며, 제안된 방법이 새로운 최고 성능 결과를 달성하였습니다. 특히 TRUST는 PubTabNet에서 10 FPS로 실행되며, 이전 방법들을 크게 능가하였습니다.