2달 전

분할, 삽입 및 병합: 정확한 표 구조 인식기

Zhenrong Zhang; Jianshu Zhang; Jun Du
분할, 삽입 및 병합: 정확한 표 구조 인식기
초록

표 구조 인식은 기계가 표를 이해하는 데 있어 필수적인 부분입니다. 이 작업의 주요 목표는 표의 내부 구조를 인식하는 것입니다. 그러나 표의 구조와 스타일이 복잡하고 다양하기 때문에, 특히 복잡한 표의 경우, 기계가 쉽게 이해할 수 있는 구조화된 형식으로 표 데이터를 파싱하는 것이 매우 어렵습니다. 본 논문에서는 정확한 표 구조 인식기인 Split, Embed and Merge (SEM)을 소개합니다. 우리 모델은 단순한 표나 복잡한 표에 관계없이 표 이미지를 입력으로 받아 올바른 표 구조를 인식할 수 있습니다.SEM은 주로 세 가지 부분으로 구성되어 있으며, 이는 분리기(splitter), 임베딩(embedder), 및 병합기(merger)입니다. 첫 번째 단계에서, 우리는 분리기를 사용하여 가능한 표 행(열) 구분자 영역을 예측하고, 이를 통해 표의 미세 그리드 구조를 얻습니다. 두 번째 단계에서는 표 내 텍스트 정보를 충분히 고려하여, 시각적 및 언어적 모달리티로부터 각각의 표 그리드에 대한 출력 특성을 융합합니다. 또한, 추가적인 의미론적 특성을 도입함으로써 실험에서 더 높은 정밀도를 달성하였습니다. 마지막 단계에서는 이러한 기본적인 표 그리드들을 자기 회귀 방식으로 병합 처리하며, 주의 메커니즘을 통해 해당 병합 결과를 학습합니다.우리의 실험에서 SEM은 SciTSR 데이터셋에서 평균 F1 측정치 97.11%를 달성하였으며, 이는 다른 방법들보다 크게 우월한 성능을 보였습니다. 또한 ICDAR 2021 과학 문헌 파싱 대회(Task-B)에서 복잡한 표 부문 1위와 전체 부문 3위를 차지하였습니다. 다른 공개 데이터셋에서도 광범위하게 수행된 실험들은 우리 모델이 최신 연구 수준(state-of-the-art)을 달성하였음을 입증하고 있습니다.

분할, 삽입 및 병합: 정확한 표 구조 인식기 | 최신 연구 논문 | HyperAI초신경