2달 전

다중 셀 디코더와 상호 학습을 이용한 표 구조 및 문자 인식

Takaya Kawakatsu
다중 셀 디코더와 상호 학습을 이용한 표 구조 및 문자 인식
초록

과학 논문 및 금융 보고서와 같은 문서에서 표의 내용을 추출하여 대형 언어 모델이 처리할 수 있는 형식으로 변환하는 것은 지식 정보 처리에서 중요한 작업입니다. 표 구조뿐만 아니라 셀 내용도 인식하는 엔드투엔드 접근 방식은 외부 문자 인식 시스템을 사용하는 최신 모델과 유사한 성능을 달성했으며, 향후 개선의 잠재력이 있습니다. 또한 이러한 모델은 로컬 어텐션(local attention)을 도입함으로써 수백 개의 셀로 구성된 긴 표를 인식할 수 있게 되었습니다. 그러나 이들 모델은 헤더에서 푸터로 단일 방향으로 표 구조를 인식하며, 각 셀의 내용 인식은 독립적으로 수행되므로 인접 셀로부터 유용한 정보를 검색할 기회가 없습니다. 본 논문에서는 엔드투엔드 접근 방식을 개선하기 위해 다중 셀 내용 디코더와 양방향 상호 학습 메커니즘을 제안합니다. 두 개의 큰 데이터셋에서 효과성을 입증하였으며, 실험 결과는 수백 개의 셀로 구성된 긴 표에서도 최신 모델과 유사한 성능을 보임을 확인하였습니다.

다중 셀 디코더와 상호 학습을 이용한 표 구조 및 문자 인식 | 최신 연구 논문 | HyperAI초신경