16일 전

DiffusionSTR: 장면 텍스트 인식을 위한 확산 모델

Masato Fujitake

초록

본 논문은 자연 환경에서의 텍스트 인식을 위한 엔드투엔드 텍스트 인식 프레임워크인 DiffusionSTR(Diffusion Model for Scene Text Recognition)를 제안한다. 기존 연구들은 장면 텍스트 인식 작업을 이미지에서 텍스트로의 변환 문제로 간주해 왔으나, 본 연구에서는 확산 모델 내에서 이미지를 조건으로 하는 텍스트-텍스트 변환 문제로 재정의한다. 본 연구는 처음으로 확산 모델이 텍스트 인식에 적용될 수 있음을 보여준다. 또한 공개된 데이터셋을 이용한 실험 결과, 제안하는 방법이 최신 기술 대비 경쟁력 있는 정확도를 달성함을 확인하였다.