13일 전
SEED: 장면 텍스트 인식을 위한 의미 강화형 인코더-디코더 프레임워크
Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang

초록
장면 텍스트 인식은 컴퓨터 비전 분야에서 주목받는 핫 이슈이다. 최근에는 인코더-디코더 아키텍처 기반의 많은 인식 방법이 제안되었으며, 이들은 원근 왜곡이나 곡선 형태의 장면 텍스트를 효과적으로 처리할 수 있다. 그러나 여전히 이미지 흐림, 불균일한 조명, 문자의 부분적 손실과 같은 많은 도전 과제에 직면해 있다. 본 연구에서는 기존의 대부분의 인코더-디코더 방법이 명시적인 전역적 의미 정보 없이 국소적 시각적 특징에 의존하고 있다고 지적한다. 본 논문에서는 저품질 장면 텍스트를 견고하게 인식할 수 있도록 의미 정보를 강화한 인코더-디코더 프레임워크를 제안한다. 제안된 프레임워크에서는 의미 정보를 인코더 모듈에서의 감독 신호로, 디코더 모듈에서의 초기화에 활용한다. 특히, 최첨단 기법인 ASTER 방법을 본 프레임워크에 예시로 통합하였다. 광범위한 실험을 통해 제안된 프레임워크가 저품질 텍스트 이미지에 대해 더 뛰어난 강건성을 보이며, 여러 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성함을 입증하였다.