8일 전
텍스트 퍼셉트론: 엔드투엔드의 임의 형태 텍스트 스폿팅을 향해
Liang Qiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu

초록
최근 들어 불규칙한 장면 텍스트를 탐지하기 위한 다양한 접근법이 제안되었으며, 희망적인 성과를 거두고 있다. 그러나 이러한 방법들은 주로 두 가지 이유로 이후 텍스트 인식 단계의 요구를 충족하지 못할 수 있다. 첫째, 임의의 형태를 가진 텍스트를 인식하는 것은 여전히 도전적인 과제이며, 둘째, 텍스트 탐지와 텍스트 인식 사이에 흔히 사용되는 학습 불가능한 파이프라인 전략이 최적의 성능을 낼 수 없게 만든다. 이러한 호환성 문제를 해결하기 위해 본 논문에서는 엔드 투 엔드 학습이 가능한 텍스트 스포팅 방법인 Text Perceptron을 제안한다. 구체적으로, Text Perceptron은 효율적인 세그멘테이션 기반의 텍스트 탐지기로, 잠재적인 텍스트 읽기 순서와 경계 정보를 학습한다. 그 후, 추가적인 파라미터 없이 탐지된 특징 영역을 규칙적인 형태로 변환하는 새로운 형태 전환 모듈(Shape Transform Module, 약자: STM)을 설계한다. 이 모듈은 텍스트 탐지와 이후 인식 부분을 하나의 통합 프레임워크로 결합하여, 전체 네트워크가 전역 최적화를 달성하도록 돕는다. 실험 결과, 제안한 방법은 ICDAR 2013 및 ICDAR 2015와 같은 두 가지 표준 텍스트 벤치마크에서 경쟁력 있는 성능을 보였으며, 특히 불규칙 텍스트 벤치마크인 SCUT-CTW1500과 Total-Text에서 기존 방법들을 명확히 상회하는 성능을 기록했다.