2달 전

EAST: 효율적이고 정확한 장면 텍스트 검출기

Zhou, Xinyu ; Yao, Cong ; Wen, He ; Wang, Yuzhi ; Zhou, Shuchang ; He, Weiran ; Liang, Jiajun

초록

과거의 장면 텍스트 검출 방법들은 다양한 벤치마크에서 이미 유망한 성능을 달성하였습니다. 그러나 깊은 신경망 모델을 사용하더라도 도전적인 시나리오에서는 종종 부족함을 보이는 경우가 많습니다. 이는 전체 성능이 파이프라인 내 여러 단계와 구성 요소 간의 상호작용에 의해 결정되기 때문입니다. 본 연구에서는 자연 환경에서 빠르고 정확한 텍스트 검출을 가능하게 하는 간단하면서도 강력한 파이프라인을 제안합니다. 이 파이프라인은 단일 신경망으로 전체 이미지에서 임의의 방향과 사각형 형태의 단어나 텍스트 줄을 직접 예측하여, 불필요한 중간 단계(예: 후보 집합 및 단어 분할)를 제거합니다. 우리의 파이프라인이 간단하기 때문에 손실 함수와 신경망 구조 설계에 집중할 수 있습니다.ICDAR 2015, COCO-Text, MSRA-TD500 등 표준 데이터셋에서 수행된 실험 결과, 제안된 알고리즘이 정확성과 효율성 측면에서 기존 최신 방법들을 크게 능가하는 것으로 나타났습니다. ICDAR 2015 데이터셋에서 제안된 알고리즘은 720p 해상도에서 13.2fps로 F-점수 0.7820를 달성하였습니다.