2달 전

이미지 기반 표 인식: 데이터, 모델, 및 평가

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes
이미지 기반 표 인식: 데이터, 모델, 및 평가
초록

문서에서 특정 주제와 관련된 중요한 정보는 종종 독자가 정보를 검색하고 비교할 수 있도록 표 형식으로 정리됩니다. 자연어로 이러한 정보를 제공하는 것은 어려울 수 있습니다. 그러나 비정형 디지털 문서, 예를 들어 휴대용 문서 형식(PDF)과 이미지에 포함된 표 데이터는 구조와 스타일의 복잡성 및 다양성 때문에 구조화된 기계 판독 가능한 형식으로 파싱하기 어렵습니다. 깊은 학습을 활용한 이미지 기반 표 인식을 촉진하기 위해, 우리는 가장 큰 공개 표 인식 데이터셋인 PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet)을 개발하였습니다. 이 데이터셋은 568,000개의 표 이미지와 해당되는 구조화된 HTML 표현을 포함하고 있으며, PubMed Central Open Access Subset (PMCOA)의 과학 논문의 XML과 PDF 표현을 일치시키는 방식으로 자동 생성되었습니다.또한, 우리는 표 이미지를 HTML 코드로 변환하는 새로운 주목도 기반 인코더-이중 디코더(EDD) 아키텍처를 제안합니다. 이 모델은 표 구조를 재구성하여 셀 내용 인식을 돕는 구조 디코더를 가지고 있습니다. 또한, 우리는 표 인식에 더 적합하게 다단계 셀 오류 맞춤 및 OCR 오류를 포착하는 새로운 Tree-Edit-Distance-based Similarity (TEDS) 메트릭을 제안합니다. 실험 결과, EDD 모델은 이미지 표현만으로 복잡한 표를 정확히 인식할 수 있으며, 기존 최신 기술보다 절대 TEDS 점수에서 9.7% 높게 나타났습니다.

이미지 기반 표 인식: 데이터, 모델, 및 평가 | 최신 연구 논문 | HyperAI초신경