11일 전

UTRNet: 인쇄 문서에서의 고해상도 우르두어 텍스트 인식

Abdur Rahman, Arjun Ghosh, Chetan Arora
UTRNet: 인쇄 문서에서의 고해상도 우르두어 텍스트 인식
초록

본 논문에서는 고해상도 및 다중 스케일의 의미 특징 추출을 활용하여 인쇄된 우르두어 텍스트 인식의 과제를 해결하기 위한 새로운 접근법을 제안한다. 제안하는 UTRNet 아키텍처는 하이브리드 CNN-RNN 모델로서 기준 데이터셋에서 최신 기술 수준의 성능을 보여준다. 기존 연구들이 우르두어 문자 체계의 복잡성에 대한 일반화 능력이 부족하고 실제 세계 데이터에 대한 충분한 주석 정보가 부족하다는 한계를 극복하기 위해, 본 연구는 11,000개 이상의 텍스트 라인을 포함하는 대규모 주석이 달린 실세계 데이터셋인 UTRSet-Real과, 실제 세계와 유사한 형태로 구성되며 20,000개의 라인을 보유한 합성 데이터셋인 UTRSet-Synth를 도입하였다. 또한 기존 IIITH 데이터셋의 정답 정보를 보정하여 향후 연구에 더욱 신뢰할 수 있는 자료로 활용할 수 있도록 개선했다. 더불어 스캔된 문서 내 우르두어 텍스트 라인 검출을 위한 벤치마크 데이터셋인 UrduDoc도 제공한다. 아울러 UTRNet과 텍스트 검출 모델을 통합하여 인쇄 문서에서의 엔드투엔드 우르두어 OCR을 위한 온라인 도구를 개발하였다. 본 연구는 현재 우르두어 OCR 기술의 한계를 해결함과 동시에 이 분야의 미래 연구를 위한 기반을 마련하고, 우르두어 OCR 기술의 지속적인 발전을 촉진한다. 소스 코드, 데이터셋, 주석, 학습된 모델, 온라인 도구 등을 포함한 프로젝트 페이지는 abdur75648.github.io/UTRNet에서 확인할 수 있다.

UTRNet: 인쇄 문서에서의 고해상도 우르두어 텍스트 인식 | 최신 연구 논문 | HyperAI초신경