MANGO: 마스크 주의력 지도형 단일 단계 장면 텍스트 스폿터

최근 실용적 환경에서의 전역 최적화 및 높은 유지보수성 등의 장점으로 인해 엔드투엔드 방식의 장면 텍스트 스포팅(end-to-end scene text spotting)이 주목받는 연구 주제로 부상하고 있다. 대부분의 기존 방법들은 탐지 부분과 시퀀스 인식 부분을 두 단계 텍스트 스포팅 프레임워크로 결합하기 위해 다양한 관심 영역(region of interest, RoI) 연산을 도입하고자 한다. 그러나 이러한 프레임워크에서는 인식 부분이 탐지 결과(예: 텍스트 윤곽의 밀도)에 매우 민감하게 반응하는 문제가 존재한다. 이 문제를 해결하기 위해 본 논문에서는 RoI 연산 없이도 문자 시퀀스를 직접 인식할 수 있는 새로운 일단계 텍스트 스포팅 프레임워크인 MANGO(Mask AttentioN Guided One-stage text spotting)를 제안한다. 구체적으로, 각 텍스트 인스턴스와 그 내부 문자에 대해 주의 집중 가중치를 생성할 수 있는 위치 인식형 마스크 주의 모듈(position-aware mask attention module)을 개발하였다. 이 모듈을 통해 이미지 내 서로 다른 텍스트 인스턴스들이 서로 다른 특징 맵 채널에 할당되며, 이후 이들 특징들이 인스턴스 특징의 배치로 그룹화된다. 마지막으로, 가벼운 구조의 시퀀스 디코더를 적용하여 문자 시퀀스를 생성한다. 특히 MANGO는 본질적으로 임의의 형태를 가진 텍스트 스포팅에 적응할 수 있으며, 단순한 위치 정보(예: 직사각형 경계 상자)와 텍스트 레이블만으로도 엔드투엔드 학습이 가능하다는 점이 특징이다. 실험 결과, 제안한 방법은 규칙적 및 비규칙적 텍스트 스포팅 벤치마크인 ICDAR 2013, ICDAR 2015, Total-Text, SCUT-CTW1500에서 경쟁력 있는 성능을 보이며, 일부 경우에서는 기존 최고 성능(SOTA)을 초월하는 결과를 달성하였다.