2달 전

AON: 임의 방향 텍스트 인식을 위한 연구

Zhanzhan Cheng; Yangliu Xu; Fan Bai; Yi Niu; Shiliang Pu; Shuigeng Zhou
AON: 임의 방향 텍스트 인식을 위한 연구
초록

자연 이미지에서 텍스트를 인식하는 것은 다양한 응용 분야를 가지고 있어 컴퓨터 비전 분야의 핫한 연구 주제입니다. 광학 문자 인식(Optical Character Recognition, OCR)에 대한 수십 년간의 지속적인 연구에도 불구하고, 자연 이미지에서 텍스트를 인식하는 것은 여전히 어려운 과제입니다. 이는 장면 텍스트가 종종 불규칙한(예: 곡선, 임의 방향, 심각하게 왜곡된) 배열로 나타나기 때문이며, 이러한 문제들은 문헌에서 아직 충분히 다루어지지 않았습니다. 기존의 텍스트 인식 방법은 주로 규칙적인(수평 및 정면) 텍스트와 함께 작동하며, 불규칙한 텍스트를 처리하기 위해 단순히 일반화할 수 없습니다. 본 논문에서는 불규칙한 텍스트의 깊은 특성을 직접 포착하기 위한 임의 방향 네트워크(Arbitrary Orientation Network, AON)를 개발하였으며, 이를 주목기(attention-based) 디코더와 결합하여 문자 시퀀스를 생성합니다. 전체 네트워크는 이미지와 단어 레벨 주석만을 사용하여 엔드투엔드로 학습될 수 있습니다. CUTE80, SVT-Perspective, IIIT5k, SVT 및 ICDAR 데이터셋을 포함한 다양한 벤치마크에서 수행된 광범위한 실험 결과, 제안된 AON 기반 방법이 불규칙한 데이터셋에서 최신 성능을 달성하였으며, 규칙적인 데이터셋에서는 주요 기존 방법들과 유사한 성능을 보임을 확인할 수 있었습니다.

AON: 임의 방향 텍스트 인식을 위한 연구 | 최신 연구 논문 | HyperAI초신경