2달 전

이미지 기반 표 인식을 위한 엔드투엔드 다중 작업 학습 모델

Nam Tuan Ly; Atsuhiro Takasu
이미지 기반 표 인식을 위한 엔드투엔드 다중 작업 학습 모델
초록

이미지 기반 표 인식은 표 스타일의 다양성과 표 구조의 복잡성 때문에 어려운 작업입니다. 이전의 대부분 방법들은 비엔드투엔드 접근 방식에 초점을 맞추어 문제를 두 개의 독립된 하위 문제로 나누고, 각 하위 문제를 두 개의 별도 시스템을 사용하여 독립적으로 해결하려고 합니다: 표 구조 인식; 셀 내용 인식. 본 논문에서는 이미지 기반 표 인식을 위한 엔드투엔드 다중 태스크 학습 모델을 제안합니다. 제안된 모델은 하나의 공유 인코더, 하나의 공유 디코더, 그리고 세 개의 별도 디코더로 구성되며, 이 디코더들은 표 인식의 세 가지 하위 작업인 표 구조 인식, 셀 검출, 셀 내용 인식을 학습하는 데 사용됩니다. 전체 시스템은 엔드투엔드 접근 방식으로 쉽게 훈련하고 추론할 수 있습니다. 실험에서 우리는 제안된 모델의 성능을 두 개의 대규모 데이터셋인 FinTabNet과 PubTabNet에서 평가하였습니다. 실험 결과는 제안된 모델이 모든 벤치마크 데이터셋에서 최신 방법들을 능가함을 보여줍니다.

이미지 기반 표 인식을 위한 엔드투엔드 다중 작업 학습 모델 | 최신 연구 논문 | HyperAI초신경