17일 전

수집된 애너테이션에서의 수기 텍스트 인식

Solène Tarride, Tristan Faine, Mélodie Boillet, Harold Mouchère, Christopher Kermorvant
수집된 애너테이션에서의 수기 텍스트 인식
초록

이 논문에서는 여러 개의 불완전하거나 노이즈가 포함된 전사본이 존재할 때, 수기 텍스트 인식을 위한 모델 훈련 방법을 다양한 방식으로 탐구한다. 우리는 단일 전사본을 선택하는 것, 모든 전사본을 유지하는 것, 또는 모든 가능성이 있는 annotation들로부터 집계된 전사본을 계산하는 등의 다양한 훈련 설정을 고려한다. 또한, 일치도가 낮은 샘플을 훈련 데이터셋에서 제거하는 품질 기반 데이터 선택의 영향을 평가한다. 실험은 1790년부터 1946년까지 프랑스 벨포르 시의 시민 등록부에 기록된 문서를 대상으로 수행되었다. 결과는 공감 전사본을 계산하거나 다수의 전사본을 기반으로 훈련하는 것이 효과적인 대안임을 보여준다. 그러나 annotator 간 일치도 수준에 따라 훈련 샘플을 선택하는 것은 훈련 데이터에 편향을 유발하며, 성능 향상에 기여하지 못함을 확인하였다. 본 연구의 데이터셋은 Zenodo를 통해 공개되어 있으며, 다음 링크에서 접근할 수 있다: https://zenodo.org/record/8041668.