11일 전

자기지도형 암묵적 글라이프 주의력(Self-supervised Implicit Glyph Attention)을 통한 텍스트 인식

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen
자기지도형 암묵적 글라이프 주의력(Self-supervised Implicit Glyph Attention)을 통한 텍스트 인식
초록

주의 메커니즘은 문자 수준의 표현을 추출할 수 있는 능력으로 인해 장면 텍스트 인식(STR) 방법에서 \emph{de facto} 모듈로 자리 잡았다. 이러한 방법들은 주의(attention)가 어떻게 계산되는지에 따라 암묵적 주의(implicit attention) 기반과 감독적 주의(supervised attention) 기반으로 나뉘며, 각각 시퀀스 수준의 텍스트 애너테이션과 문자 수준의 경계 박스 애너테이션에서 학습된다. 암묵적 주의는 문자 주의 영역으로써 조잡하거나 심지어 잘못된 공간 영역을 추출할 수 있어, 정렬 편차(alignment-drifted) 문제에 취약하다. 반면 감독적 주의는 위 문제를 완화할 수 있지만, 문자 카테고리에 따라 특화되어 있어 추가적인 번거로운 문자 수준의 경계 박스 애너테이션을 필요로 하며, 문자 카테고리가 많은 언어를 다룰 경우 메모리 사용량이 급증할 수 있다. 이러한 문제들을 해결하기 위해, 본 연구에서는 STR을 위한 새로운 주의 메커니즘인 자기지도형 암묵적 글리프 주의(Self-Supervised Implicit Glyph Attention, SIGA)를 제안한다. SIGA는 자기지도형 텍스트 세그멘테이션과 암묵적 주의 정렬을 통합하여 텍스트 이미지의 글리프 구조를 명확히 추출하며, 이는 추가적인 문자 수준의 애너테이션 없이도 주의의 정확도를 향상시키는 감독 신호로 활용된다. 실험 결과, 공개된 컨텍스트 기반 벤치마크와 본 연구자가 제공한 컨텍스트 없는 벤치마크에서 SIGA가 이전의 주의 기반 STR 방법들보다 일관되게 우수한 주의 정확도와 최종 인식 성능을 보였음을 입증하였다.

자기지도형 암묵적 글라이프 주의력(Self-supervised Implicit Glyph Attention)을 통한 텍스트 인식 | 최신 연구 논문 | HyperAI초신경