2달 전

FOTS: 빠른 방향성 텍스트 인식을 위한 통합 네트워크

Xuebo Liu; Ding Liang; Shi Yan; Dagui Chen; Yu Qiao; Junjie Yan
FOTS: 빠른 방향성 텍스트 인식을 위한 통합 네트워크
초록

우연히 포착된 장면 텍스트 스포팅은 문서 분석 커뮤니티에서 가장 어려운 과제 중 하나로 여겨집니다. 기존의 대부분 방법들은 텍스트 검출과 인식을 별도의 작업으로 취급합니다. 본 연구에서는 두 가지 보완적인 작업 간에 계산과 시각 정보를 공유하는 통합된 엔드투엔드 학습 가능한 Fast Oriented Text Spotting (FOTS) 네트워크를 제안합니다. 특히, RoIRotate가 도입되어 검출과 인식 사이에서 합성곱 특성을 공유할 수 있도록 하였습니다. 합성곱 공유 전략 덕분에 우리의 FOTS는 베이스라인 텍스트 검출 네트워크와 비교하여 거의 계산 부담이 없으며, 공동 학습 방법은 더 일반적인 특성을 학습하여 이 방법이 두 단계 방식보다 우수한 성능을 발휘하도록 합니다. ICDAR 2015, ICDAR 2017 MLT, 그리고 ICDAR 2013 데이터셋에서 수행된 실험 결과는 제안된 방법이 현존하는 최고의 방법들을 크게 능가함을 보여주며, 이를 통해 처음으로 실시간 방향 텍스트 스포팅 시스템을 개발할 수 있었습니다. 이 시스템은 ICDAR 2015 텍스트 스포팅 작업에서 이전 최고 결과들보다 5% 이상 뛰어난 성능을 보이며, 동시에 22.6 fps를 유지합니다.

FOTS: 빠른 방향성 텍스트 인식을 위한 통합 네트워크 | 최신 연구 논문 | HyperAI초신경