17일 전

단일 스펙트럼 자기적응형 장면 텍스트 스포터: 분리되었으나 협업하는 탐지 및 인식

Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Wenjie Pei
단일 스펙트럼 자기적응형 장면 텍스트 스포터: 분리되었으나 협업하는 탐지 및 인식
초록

일반적인 텍스트 스포팅 기법은 두 단계의 스포팅 파라다임을 따르며, 먼저 텍스트 인스턴스의 경계를 탐지한 후, 탐지된 영역 내에서 텍스트 인식을 수행한다. 이러한 스포팅 파라다임은 놀라운 성과를 거두었음에도 불구하고, 텍스트 인식 성능이 텍스트 탐지의 정밀도에 크게 의존한다는 중요한 한계를 가지고 있다. 이로 인해 탐지 단계의 오류가 인식 단계로 전파되는 가능성이 존재한다. 본 연구에서는 이러한 한계를 극복하기 위해 탐지와 인식을 분리하면서도 두 작업을 공동 최적화하는 단일 스텝(Self-Reliant) 장면 텍스트 스포터 v2(SRSTS v2)를 제안한다. 구체적으로, SRSTS v2는 각 잠재적 텍스트 인스턴스 주변에서 대표적인 특징점을 샘플링하고, 이 샘플된 점들을 기반으로 텍스트 탐지와 인식을 병렬로 수행한다. 따라서 텍스트 인식은 더 이상 탐지에 의존하지 않게 되어, 탐지에서 인식으로의 오류 전파를 완화할 수 있다. 또한 샘플링 모듈은 탐지와 인식의 두 가지 태스크로부터 동시에 지도된 학습을 통해 학습되며, 이로써 두 작업 간의 공동 최적화와 상호 보완적 강화가 가능해진다. 이러한 샘플링 기반의 동시 스포팅 프레임워크의 이점으로 인해, 정밀한 텍스트 경계 탐지가 어려운 경우에도 본 방법은 텍스트 인스턴스를 정확히 인식할 수 있다. 네 가지 벤치마크에서 실시한 광범위한 실험 결과, 제안한 방법이 최신 기술 대비 우수한 성능을 보임을 입증하였다.

단일 스펙트럼 자기적응형 장면 텍스트 스포터: 분리되었으나 협업하는 탐지 및 인식 | 최신 연구 논문 | HyperAI초신경