2달 전

LGPMA: 로컬 및 글로벌 피라미드 마스크 정렬을 이용한 복잡한 표 구조 인식

Liang Qiao; Zaisheng Li; Zhanzhan Cheng; Peng Zhang; Shiliang Pu; Yi Niu; Wenqi Ren; Wenming Tan; Fei Wu
LGPMA: 로컬 및 글로벌 피라미드 마스크 정렬을 이용한 복잡한 표 구조 인식
초록

표 구조 인식은 다양한 구조와 복잡한 셀 스팬 관계로 인해 어려운 작업입니다. 이전 방법들은 행/열, 텍스트 영역 등 서로 다른 단위의 요소들에서 문제를 다루었지만, 이로 인해 휴리스틱 규칙의 손실이나 빈 셀 분할의 무시 등의 문제가 발생했습니다. 표 구조의 특성을 바탕으로, 우리는 텍스트 영역의 정렬된 경계 상자를 얻으면 서로 다른 셀들의 전체 관련 범위를 효과적으로 유지할 수 있다는 것을 발견했습니다. 그러나 시각적 모호성 때문에 정렬된 경계 상자는 정확하게 예측하기 어렵습니다. 본 논문에서는 제안된 로컬 특징과 글로벌 특징에서 텍스트 영역과 셀 관계의 시각적 정보를 충분히 활용하여 더욱 신뢰할 수 있는 정렬된 경계 상자를 얻는 것을 목표로 합니다. 구체적으로, 우리는 로컬 및 글로벌 피라미드 마스크 정렬 프레임워크를 제안합니다. 이 프레임워크는 로컬 및 글로벌 특징 맵에서 부드러운 피라미드 마스크 학습 메커니즘을 채택하여 예측된 경계 상자의 경계가 원래 제안들의 한계를 극복할 수 있도록 합니다. 이후 피라미드 마스크 재점수화 모듈이 통합되어 로컬 및 글로벌 정보를 조정하고 예측된 경계를 개선합니다. 마지막으로, 우리는 최종 구조를 얻기 위한 강건한 표 구조 복원 파이프라인을 제안하며, 여기서 빈 셀 위치 결정과 분할 문제도 효과적으로 해결하였습니다. 실험 결과는 제안된 방법이 여러 공개 벤치마크에서 경쟁력 있는 성능을 보여주며, 심지어 새로운 최고 수준의 성능을 달성하는 것으로 나타났습니다.

LGPMA: 로컬 및 글로벌 피라미드 마스크 정렬을 이용한 복잡한 표 구조 인식 | 최신 연구 논문 | HyperAI초신경