8일 전

GLASS: 장면 텍스트 탐지를 위한 전역에서 국부로의 주의 메커니즘

Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, R. Manmatha
GLASS: 장면 텍스트 탐지를 위한 전역에서 국부로의 주의 메커니즘
초록

최근 몇 년간 텍스트 스포팅(text spotting)의 주류 패러다임은 텍스트 검출(text detection)과 인식(text recognition)을 하나의 엔드투엔드(end-to-end) 프레임워크로 통합하는 방식이다. 이 패러다임에서는 입력 이미지로부터 추출된 공유된 전역 특징 맵(global feature map)을 기반으로 두 작업을 동시에 수행한다. 엔드투엔드 접근 방식이 직면하는 주요 과제 중 하나는 텍스트 크기 변화(작은 또는 큰 텍스트) 및 임의의 단어 회전 각도에 대한 인식 성능 저하이다. 본 연구에서는 이러한 과제를 해결하기 위해, 전역 특징과 국소 특징을 융합하는 새로운 전역-국소 주의 메커니즘(global-to-local attention mechanism)을 제안한다. 이 메커니즘은 GLASS(GLOBAL-TO-LOCAL ATTENTION FOR TEXT SPOTTING)라고 명명하였다. 전역 특징은 공유 백본(shared backbone)에서 추출되며, 전체 이미지의 맥락 정보를 유지한다. 반면 국소 특징은 각각의 크기 조정된 고해상도 회전된 단어 조각(word crops)에 대해 독립적으로 계산된다. 국소 조각에서 추출된 정보는 크기 변화 및 단어 회전과 관련된 내재적 어려움을 크게 완화한다. 본 연구에서는 다양한 크기와 각도에 걸쳐 성능 분석을 수행하여, 특히 극단적인 크기와 각도에서의 성능 향상을 입증하였다. 또한, 검출 작업을 보조하는 방향 인식 손실 항목(orientation-aware loss term)을 도입하였으며, 이가 모든 각도에서 검출 및 인식 성능 향상에 기여함을 보였다. 마지막으로, GLASS가 다른 주요 텍스트 스포팅 아키텍처에 통합되어도 일반화 가능함을 보여주며, 이를 통해 기존 아키텍처의 텍스트 스포팅 성능을 향상시켰다. 본 연구의 방법은 최신에 공개된 TextOCR를 포함한 여러 벤치마크에서 최고 수준의 성능을 달성하였다.