2달 전
라벨링, 자르기, 그룹화: 중세 수필의 효율적인 텍스트 줄 분할 방법
Michele Alberti; Lars Vögtlin; Vinaychandran Pondenkandath; Mathias Seuret; Rolf Ingold; Marcus Liwicki

초록
본 논문은 딥러닝 기반 사전 분류와 최신 분할 방법을 통합하여 텍스트 줄 추출의 새로운 방식을 소개합니다. 복잡한 필기 문서에서의 텍스트 줄 추출은 가장 현대적인 컴퓨터 비전 알고리즘에게도 큰 도전이 됩니다. 역사적 원고는 특히 어려운 문서 유형으로, 화소 수준에서의 노이즈 형태인 퇴화, 잉크 침투, 주석, 그리고 정교한 서체 등이 포함되어 있습니다. 본 연구에서는 의미 분할을 중간 단계로 사용하고 이를 통해 텍스트 줄 추출 단계를 수행하는 새로운 방법을 제안합니다. 우리는 이 방법의 성능을 도전적인 중세 원고 데이터셋에서 측정하였으며, 최신 결과를 능가하여 오류를 80.7% 감소시켰습니다. 또한, 다른 스크립트로 작성된 다양한 데이터셋에서도 우리 접근법의 효과성을 입증하였습니다. 따라서 우리의 공헌은 두 가지입니다. 첫째, 의미 화소 분할이 텍스트 줄 추출 전 강력한 노이즈 제거 사전 처리 단계로 활용될 수 있음을 보여줍니다. 둘째, 고품질의 의미 분할을 활용하여 도전적인 데이터셋에서 99.42%의 라인 IU(Intersection over Union) 성능을 달성하는 새로운, 간단하고 견고한 알고리즘을 소개합니다.