11일 전
장면 텍스트 인식을 위한 표현 및 상관관계 강화형 인코더-디코더 프레임워크
Mengmeng Cui, Wei Wang, Jinjin Zhang, Liang Wang

초록
기반 주의형 인코더-디코더 프레임워크는 장면 텍스트 인식 작업에서 널리 사용되고 있다. 그러나 현재 최고 성능(SOTA) 기법들 역시 입력 텍스트 이미지의 국소적 시각 정보와 전역적 맥락 정보를 효율적으로 활용하는 데 있어서 개선 여지가 있으며, 장면 처리 모듈(인코더)과 텍스트 처리 모듈(디코더) 간의 강건한 상관관계 형성 측면에서도 한계가 있다. 본 논문에서는 이러한 문제점을 해결하고 성능 한계를 돌파하기 위해 표현 및 상관관계 강화 인코더-디코더 프레임워크(RCEED)를 제안한다. 인코더 모듈에서는 국소적 시각 특징, 전역적 맥락 특징, 위치 정보를 정렬하고 융합하여 소형의 종합 특징 맵을 생성한다. 디코더 모듈에서는 장면 특징 공간과 텍스트 특징 공간 간의 상관관계를 강화하기 위해 두 가지 방법을 활용한다. 첫째, 디코더의 초기화 과정이 인코더에서 출력된 전반적 특징과 전역적 힌트 벡터(global glimpse vector)에 의해 안내된다. 둘째, 다중 헤드 일반 주의(Multi-Head General Attention)를 통해 생성된 풍부한 특징을 가진 힌트 벡터를 사용하여 RNN 반복 과정과 각 시간 단계에서의 문자 예측을 보조한다. 또한, 변화하는 텍스트에 대한 모델의 일반화 성능을 향상시키기 위해 Layernorm-Dropout LSTM 셀을 설계하였다. 다양한 벤치마크에서 실시한 광범위한 실험을 통해 RCEED가 장면 텍스트 인식 작업, 특히 비정형 텍스트에 대해 우수한 성능을 보임을 입증하였다.