11일 전

텍스트 인식을 위한 분리형 어텐션 네트워크

Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xiaoxue Chen, Yaqiang Wu, Qianying Wang, Mingxiang Cai
텍스트 인식을 위한 분리형 어텐션 네트워크
초록

문자 인식은 다양한 응용 분야에서의 중요성으로 인해 많은 연구 관심을 받고 있다. 최신의 문자 인식 기법은 주로 어텐션 메커니즘을 기반으로 하고 있다. 그러나 대부분의 어텐션 기반 방법은 이전 디코딩 결과에 의존하는 순차적 정렬 연산으로 인해 심각한 정렬 문제를 겪는다. 이러한 문제를 해결하기 위해 우리는 역사적 디코딩 결과와 정렬 연산을 분리하는 분리형 어텐션 네트워크(Decoupled Attention Network, DAN)를 제안한다. DAN은 효과적이고 유연하며 강건한 엔드투엔드 문자 인식기로, 세 가지 구성 요소로 이루어져 있다. 첫째, 입력 이미지에서 시각적 특징을 추출하는 특징 인코더이며, 둘째, 인코더로부터 얻은 시각적 특징을 기반으로 정렬 연산을 수행하는 컨볼루션 정렬 모듈이며, 셋째, 특징 맵과 어텐션 맵을 함께 사용하여 최종 예측을 수행하는 분리형 텍스트 디코더이다. 실험 결과, DAN은 오프라인 손글씨 문자 인식 및 정규/비정규 장면 내 문자 인식을 포함한 다양한 문자 인식 작업에서 최신 기술 수준의 성능을 달성하였다.

텍스트 인식을 위한 분리형 어텐션 네트워크 | 최신 연구 논문 | HyperAI초신경