
초록
비정형 텍스트는 널리 사용되고 있습니다. 그러나 다양한 형태와 왜곡된 패턴 때문에 인식이 상당히 어려운 경우가 많습니다. 본 논문에서는 일반적인 장면 텍스트 인식을 위해 다중 객체 정규화 주의 네트워크(Multi-Object Rectified Attention Network, MORAN)를 제안합니다. MORAN은 다중 객체 정규화 네트워크와 주의 기반 시퀀스 인식 네트워크로 구성됩니다. 다중 객체 정규화 네트워크는 비정형 텍스트를 포함하는 이미지를 정규화하기 위해 설계되었습니다. 이는 인식의 어려움을 줄이고 주의 기반 시퀀스 인식 네트워크가 비정형 텍스트를 더 쉽게 읽을 수 있도록 합니다. 이 네트워크는 약한 감독 방식으로 학습되므로 이미지와 해당 텍스트 라벨만 필요합니다. 주의 기반 시퀀스 인식 네트워크는 대상 문자에 초점을 맞추고 순차적으로 예측 값을 출력합니다. 또한, 학습 단계에서 주의 기반 디코더의 민감도를 개선하기 위해 분수 픽업(fractional pickup) 방법을 제안합니다. 정규화 메커니즘 덕분에 MORAN은 규칙적 텍스트와 비정형 텍스트 모두를 읽을 수 있습니다. 다양한 벤치마크에서 광범위한 실험을 수행하였으며, 결과는 MORAN이 최신 연구 성과(state-of-the-art performance)를 달성함을 보여주었습니다. 소스 코드는 제공됩니다.