
초록
장면 텍스트 검출은 장면 텍스트 인식 시스템의 중요한 단계이자 어려운 문제입니다. 일반 객체 검출과 달리, 자연 이미지에서의 텍스트 검출의 주요 난점은 임의의 방향, 작은 크기, 그리고 크게 변하는 종횡비에 있습니다. 본 논문에서는 단일 네트워크 전방 패스에서 높은 정확도와 효율성을 모두 달성하는 엔드투엔드 학습 가능한 빠른 장면 텍스트 검출기인 TextBoxes++를 제시합니다. 이 방법은 효율적인 비최대 억제 외에는 후처리가 필요하지 않습니다. 우리는 제안된 TextBoxes++를 네 개의 공개 데이터셋에서 평가했습니다. 모든 실험에서 TextBoxes++는 텍스트 위치 추정 정확도와 실행 시간 측면에서 경쟁 방법들을 능가하였습니다. 더욱 구체적으로, 10241024 ICDAR 2015 우발적 텍스트 이미지에 대해 11.6fps에서 f-측정값 0.817을, 768768 COCO-Text 이미지에 대해 19.8fps에서 f-측정값 0.5591을 달성하였습니다. 또한, 텍스트 인식기와 결합할 경우, TextBoxes++는 인기 있는 벤치마크에서 단어 탐색 및 엔드투엔드 텍스트 인식 작업에 있어 최신 접근법들을 크게 능가하였습니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/MhLiao/TextBoxes_plusplus