딥 컨볼루션 신경망을 이용한 거리뷰 이미지에서의 다중 자릿수 숫자 인식

무제한 자연 사진에서 임의의 다중 문자 텍스트를 인식하는 것은 어려운 문제입니다. 본 논문에서는 이 영역에서 동등하게 어려운 하위 문제인 가로보기 이미지에서 임의의 다중 숫자를 인식하는 문제에 대해 다룹니다. 이 문제를 해결하기 위한 전통적인 접근 방식은 일반적으로 위치 추정, 분할, 인식 단계를 분리하여 처리합니다. 본 논문에서는 이러한 세 단계를 깊은 합성곱 신경망을 사용하여 통합하는 통합적 접근 방식을 제안합니다. 이 신경망은 직접 이미지 픽셀 위에서 작동합니다. 우리는 고품질 이미지를 사용하여 큰 분산된 신경망을 훈련시키기 위해 깊은 신경망의 DistBelief 구현을 활용하였습니다. 연구 결과, 이 접근 방식의 성능은 합성곱 네트워크의 깊이가 증가함에 따라 향상되며, 11개의 은닉층을 가진 가장 깊게 훈련시킨 아키텍처에서 최고 성능을 보였습니다.우리는 공개된 SVHN 데이터셋에서 이 접근 방식을 평가하였으며, 완전한 가로번호 인식 정확도가 96% 이상임을 확인하였습니다. 한 자릿수씩 인식하는 작업에서도 기존 연구보다 우수한 성능을 보여 97.84%의 정확도를 달성하였습니다. 또한 수천만 개의 가로번호 주석이 포함된 더욱 도전적인 가로보기 이미지 데이터셋에서도 이 접근 방식을 평가하였으며, 90% 이상의 정확도를 기록하였습니다.제안된 시스템이 더 넓은 범위의 텍스트 인식 작업에도 적용될 수 있는지를 탐구하기 위해, reCAPTCHA에서 생성된 합성 왜곡 텍스트에 이를 적용하였습니다. reCAPTCHA는 왜곡된 텍스트를 사용하여 인간과 봇을 구분하는 가장 안전한 역 튜링 테스트 중 하나입니다. 우리는 reCAPTCHA에서 가장 어려운 카테고리에서 99.8%의 정확도를 보고하였습니다.두 작업 모두에 대한 우리의 평가는 특정 운영 임계값에서 제안된 시스템의 성능이 인간 운영자와 비교할 수 있으며, 일부 경우에서는 이를 초월한다는 것을 나타냅니다.