8일 전

텍스트 퍼셉트론: 엔드투엔드의 임의 형태 텍스트 스폿팅을 향해

Liang Qiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu
텍스트 퍼셉트론: 엔드투엔드의 임의 형태 텍스트 스폿팅을 향해
초록

최근 들어 불규칙한 장면 텍스트를 탐지하기 위한 다양한 접근법이 제안되었으며, 희망적인 성과를 거두고 있다. 그러나 이러한 방법들은 주로 두 가지 이유로 이후 텍스트 인식 단계의 요구를 충족하지 못할 수 있다. 첫째, 임의의 형태를 가진 텍스트를 인식하는 것은 여전히 도전적인 과제이며, 둘째, 텍스트 탐지와 텍스트 인식 사이에 흔히 사용되는 학습 불가능한 파이프라인 전략이 최적의 성능을 낼 수 없게 만든다. 이러한 호환성 문제를 해결하기 위해 본 논문에서는 엔드 투 엔드 학습이 가능한 텍스트 스포팅 방법인 Text Perceptron을 제안한다. 구체적으로, Text Perceptron은 효율적인 세그멘테이션 기반의 텍스트 탐지기로, 잠재적인 텍스트 읽기 순서와 경계 정보를 학습한다. 그 후, 추가적인 파라미터 없이 탐지된 특징 영역을 규칙적인 형태로 변환하는 새로운 형태 전환 모듈(Shape Transform Module, 약자: STM)을 설계한다. 이 모듈은 텍스트 탐지와 이후 인식 부분을 하나의 통합 프레임워크로 결합하여, 전체 네트워크가 전역 최적화를 달성하도록 돕는다. 실험 결과, 제안한 방법은 ICDAR 2013 및 ICDAR 2015와 같은 두 가지 표준 텍스트 벤치마크에서 경쟁력 있는 성능을 보였으며, 특히 불규칙 텍스트 벤치마크인 SCUT-CTW1500과 Total-Text에서 기존 방법들을 명확히 상회하는 성능을 기록했다.

텍스트 퍼셉트론: 엔드투엔드의 임의 형태 텍스트 스폿팅을 향해 | 최신 연구 논문 | HyperAI초신경