2달 전
BN-DRISHTI:Bangla 문서 인식을 위한 수기 텍스트 이미지의 인스턴스 레벨 세그멘테이션
Jubaer, Sheikh Mohammad ; Tabassum, Nazifa ; Rahman, Md. Ataur ; Islam, Mohammad Khairul

초록
서예 인식은 방글라어와 같은 가장 많이 사용되는 언어들에 대해 여전히 도전적인 과제입니다. 이는 서예의 곡선적 특성으로 인한 줄과 단어 분할의 복잡성 및 품질 높은 데이터셋 부족 때문입니다. 본 논문에서는 최신 방법(BN-DRISHTI)을 소개하여 이 분할 문제를 해결합니다. BN-DRISHTI는 딥러닝 기반 객체 검출 프레임워크(YOLO)와 호프 변환 및 아핀 변환을 결합하여 기울기 보정을 수행합니다. 그러나 딥러닝 모델의 학습에는 대량의 데이터가 필요합니다. 따라서, 우리는 786장의 전체 페이지 방글라어 손글씨 문서 이미지, 줄 및 단어 수준의 분할 주석, 그리고 단어 인식을 위한 대응하는 참조 진리(ground truth)를 포함하는 BN-HTRd 데이터셋의 확장 버전도 제시합니다. 우리의 데이터셋 테스트 부분에서 평가한 결과, 줄 분할에 대한 F점수는 99.97%, 단어 분할에 대한 F점수는 98%를 기록했습니다. 비교 분석을 위해 BanglaWriting, WBSUBNdb_text, ICDAR 2013 등 세 개의 외부 방글라어 손글씨 데이터셋을 사용하였으며, 우리의 시스템은 이들에서 크게 우월한 성능을 보였습니다. 이로써 우리의 접근법이 완전히 새로운 샘플에서도 효과적임을 더욱 입증하였습니다.