2달 전

이미지 기반 시퀀스 인식을 위한 엔드투엔드 학습 가능한 신경망 및 그 응용: 장면 텍스트 인식

Baoguang Shi; Xiang Bai; Cong Yao
이미지 기반 시퀀스 인식을 위한 엔드투엔드 학습 가능한 신경망 및 그 응용: 장면 텍스트 인식
초록

이미지 기반 시퀀스 인식은 컴퓨터 비전 분야에서 오랫동안 연구 주제로 다루어져 왔습니다. 본 논문에서는 이미지 기반 시퀀스 인식 중에서도 가장 중요하고 어려운 과제 중 하나인 장면 텍스트 인식 문제를 조사합니다. 특징 추출, 시퀀스 모델링 및 전사 과정을 통합한 새로운 신경망 아키텍처가 제안되었습니다. 이전의 장면 텍스트 인식 시스템들과 비교하여 제안된 아키텍처는 다음과 같은 네 가지 독특한 특성을 가지고 있습니다: (1) 구성 요소들이 개별적으로 학습되고 조정되는 대부분의 기존 알고리즘과 달리, 이 아키텍처는 엔드투엔드(end-to-end)로 학습 가능합니다. (2) 문자 분할이나 수평 스케일 정규화 없이 임의의 길이의 시퀀스를 자연스럽게 처리할 수 있습니다. (3) 사전 정의된 사전에 제약받지 않으며, 사전 없는 뿐만 아니라 사전 기반 장면 텍스트 인식 작업에서도 뛰어난 성능을 보입니다. (4) 효과적이면서도 크기가 훨씬 작은 모델을 생성하여 실제 응용 환경에서 더 실용적입니다. IIIT-5K, Street View Text 및 ICDAR 데이터셋 등 표준 벤치마크에서 수행된 실험들은 제안된 알고리즘의 우수성을 입증하였습니다. 또한, 제안된 알고리즘이 이미지 기반 악보 인식 작업에서도 좋은 성능을 보이는 것으로 나타나 그 일반성을 명백히 검증하였습니다.

이미지 기반 시퀀스 인식을 위한 엔드투엔드 학습 가능한 신경망 및 그 응용: 장면 텍스트 인식 | 최신 연구 논문 | HyperAI초신경