2달 전
주목도 기반의 거리 사진에서 구조화된 정보 추출
Zbigniew Wojna; Alex Gorban; Dar-Shyang Lee; Kevin Murphy; Qian Yu; Yeqing Li; Julian Ibarz

초록
우리는 CNN(합성곱 신경망), RNN(순환 신경망) 및 새로운 주의 메커니즘을 기반으로 하는 신경망 모델을 제시합니다. 이 모델은 도전적인 프랑스 거리 이름 표지판(FSNS) 데이터셋에서 84.2%의 정확도를 달성하여, 이전 최고 수준(Smith'16)인 72.46%보다 크게 우수한 성능을 보입니다. 또한, 우리의 새로운 방법은 이전 접근 방식보다 훨씬 간단하고 일반적입니다. 우리 모델의 일반성을 입증하기 위해, 구글 스트리트 뷰에서 파생된 더욱 도전적인 데이터셋에서도 우수한 성능을 보이는 것을 확인하였습니다. 이 데이터셋에서는 상점 앞면에서 사업체 이름을 추출하는 것이 목표입니다. 마지막으로, 서로 다른 깊이를 가진 CNN 특징 추출기 사용에 따른 속도와 정확도의 균형을 연구하였습니다. 놀랍게도, 더 깊은 모델이 항상 더 나은 결과(정확도뿐만 아니라 속도 면에서도)를 가져다주지 않는다는 사실을 발견하였습니다. 우리의 최종 모델은 간단하면서도 정확하고 빠르며, 다양한 도전적인 실제 텍스트 추출 문제에 대규모로 적용할 수 있습니다.