16일 전

ASTER: 유연한 보정을 갖춘 주의력 기반 시나리오 텍스트 인식기

{and Xiang Bai, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, Baoguang Shi}
초록

최근 몇 년간 장면 텍스트 인식(ScENE text recognition)은 다양한 응용 분야에서의 중요성으로 인해 학계와 산업계 모두에서 큰 관심을 끌고 있다. 문서 텍스트를 대상으로 한 광학 문자 인식(OCR) 시스템은 이미 상당히 성숙한 단계에 이르렀지만, 장면 텍스트 인식은 여전히 도전적인 문제로 남아 있다. 배경, 외관, 레이아웃 측면에서 큰 변동성이 존재하기 때문에 기존의 전통적 OCR 기법들은 이를 효과적으로 다루기 어렵다. 최근 장면 텍스트 인식 분야의 발전은 딥러닝 기반 인식 모델의 성공에 힘입어 이루어졌다. 대표적인 방법으로는 컨볼루션 신경망(CNN)을 이용해 문자 단위로 텍스트를 인식하는 기법, CNN을 활용해 단어를 분류하는 방법 [24], [26], 그리고 CNN과 순환 신경망(RNN)을 결합하여 문자 시퀀스를 인식하는 방법 [54] 등이 있다. 이러한 방법들은 상당한 성공을 거두었지만, 수평적이지도 않고 정면을 향하지 않은 불규칙한 텍스트(예: 곡선 형태의 레이아웃을 가진 텍스트 등)에 대한 명시적인 대응은 이루어지지 않았다. 자연 장면에서는 이러한 불규칙한 텍스트가 자주 등장한다. 그 예로 그림 1에 나타낸 바와 같이 방향이 바뀐 텍스트, 원근감이 있는 텍스트 [49], 곡선 형태의 텍스트 등이 있다. 이러한 불규칙성에 대한 불변성(invariance)을 고려하지 않고 설계된 기존 방법들은 이러한 텍스트 인식에 있어 큰 어려움을 겪는다.

ASTER: 유연한 보정을 갖춘 주의력 기반 시나리오 텍스트 인식기 | 최신 연구 논문 | HyperAI초신경