2달 전

BN-DRISHTI:Bangla 문서 인식을 위한 수기 텍스트 이미지의 인스턴스 레벨 세그멘테이션

Jubaer, Sheikh Mohammad ; Tabassum, Nazifa ; Rahman, Md. Ataur ; Islam, Mohammad Khairul
BN-DRISHTI:Bangla 문서 인식을 위한 수기 텍스트 이미지의 인스턴스 레벨 세그멘테이션
초록

서예 인식은 방글라어와 같은 가장 많이 사용되는 언어들에 대해 여전히 도전적인 과제입니다. 이는 서예의 곡선적 특성으로 인한 줄과 단어 분할의 복잡성 및 품질 높은 데이터셋 부족 때문입니다. 본 논문에서는 최신 방법(BN-DRISHTI)을 소개하여 이 분할 문제를 해결합니다. BN-DRISHTI는 딥러닝 기반 객체 검출 프레임워크(YOLO)와 호프 변환 및 아핀 변환을 결합하여 기울기 보정을 수행합니다. 그러나 딥러닝 모델의 학습에는 대량의 데이터가 필요합니다. 따라서, 우리는 786장의 전체 페이지 방글라어 손글씨 문서 이미지, 줄 및 단어 수준의 분할 주석, 그리고 단어 인식을 위한 대응하는 참조 진리(ground truth)를 포함하는 BN-HTRd 데이터셋의 확장 버전도 제시합니다. 우리의 데이터셋 테스트 부분에서 평가한 결과, 줄 분할에 대한 F점수는 99.97%, 단어 분할에 대한 F점수는 98%를 기록했습니다. 비교 분석을 위해 BanglaWriting, WBSUBNdb_text, ICDAR 2013 등 세 개의 외부 방글라어 손글씨 데이터셋을 사용하였으며, 우리의 시스템은 이들에서 크게 우월한 성능을 보였습니다. 이로써 우리의 접근법이 완전히 새로운 샘플에서도 효과적임을 더욱 입증하였습니다.

BN-DRISHTI:Bangla 문서 인식을 위한 수기 텍스트 이미지의 인스턴스 레벨 세그멘테이션 | 최신 연구 논문 | HyperAI초신경