11일 전
임의의 형태를 가진 텍스트를 인식하기 위한 2D 자기주의(2D Self-Attention)의 활용
Junyeop Lee, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, Hwalsuk Lee

초록
장면 텍스트 인식(STR)은 자연 장면 내의 문자 시퀀스를 인식하는 작업이다. 최근 STR 기법에 큰 발전이 있었음에도 불구하고, 현재의 방법들은 일상생활에서 흔히 존재하는 복잡한 형태의 텍스트(예: 심하게 곡선을 이룬 텍스트나 회전된 텍스트 등)를 인식하는 데 여전히 어려움을 겪고 있다. 본 논문은 트랜스포머의 영감을 받아 제안한 새로운 아키텍처인 자기주의 텍스트 인식 네트워크(Self-Attention Text Recognition Network, SATRN)를 소개한다. SATRN은 장면 텍스트 이미지 내 문자 간 2차원(2D) 공간적 의존성을 설명하기 위해 자기주의(self-attention) 메커니즘을 활용한다. 자기주의의 전체 그래프 전파(full-graph propagation) 특성을 활용함으로써, SATRN은 임의의 배열과 큰 문자 간격을 가진 텍스트도 정확히 인식할 수 있다. 그 결과, SATRN은 '비정형 텍스트'(irregular text) 벤치마크에서 기존 STR 모델보다 평균적으로 5.7퍼센트 포인트(pp) 높은 성능을 기록하였다. 본 연구에서는 모델의 내부 메커니즘과 적용 가능 범위(예: 회전된 텍스트, 다중 줄 텍스트 등)에 대한 실험적 분석을 제공한다. 코드는 오픈소스로 공개할 예정이다.