11일 전
FAST: 미니멀리스트 커널 표현을 통한 더 빠른 임의 형상 텍스트 탐지기
Zhe Chen, Jiahao Wang, Wenhai Wang, Guo Chen, Enze Xie, Ping Luo, Tong Lu

초록
우리는 정확하고 효율적인 장면 텍스트 검출 프레임워크인 FAST(Faster Arbitrarily-Shaped Text Detector)를 제안한다. 최근의 고성능 텍스트 검출기들은 복잡한 후처리 과정과 수작업으로 설계된 네트워크 아키텍처를 사용함으로써 추론 속도가 낮은 문제가 있었다. 이에 반해 FAST는 두 가지 새로운 설계를 도입한다. (1) 임의의 형태를 가진 텍스트를 모델링하기 위해 단일 채널 출력만을 가지는 최소한의 커널 표현을 설계하였으며, GPU 병렬 후처리를 통해 텍스트 라인을 거의 무시할 만큼 낮은 시간 오버헤드로 효율적으로 구성한다. (2) 텍스트 검출에 특화된 네트워크 아키텍처를 탐색함으로써, 이미지 분류를 위한 네트워크 탐색 기법보다 훨씬 강력한 특징을 추출할 수 있게 되었다. 이러한 두 가지 설계 덕분에 FAST는 Total Text, CTW1500, ICDAR 2015, MSRA-TD500 등 여러 도전적인 데이터셋에서 정확도와 효율성 사이의 뛰어난 균형을 달성하였다. 예를 들어, FAST-T는 Total-Text에서 152 FPS의 속도로 81.6%의 F-측정치를 기록하며, 이전까지 가장 빠른 방법보다 정확도는 1.7점 향상되고 속도는 70 FPS 빠르게 작동한다. TensorRT 최적화를 적용할 경우 추론 속도는 600 FPS 이상으로 더욱 가속화될 수 있다. 코드와 모델은 https://github.com/czczup/FAST 에 공개될 예정이다.