2달 전

단일 샷 컨텍스트 주의 다중 작업 학습 기반 임의 형태 텍스트 검출기

Pengfei Wang; Chengquan Zhang; Fei Qi; Zuming Huang; Mengyi En; Junyu Han; Jingtuo Liu; Errui Ding; Guangming Shi
단일 샷 컨텍스트 주의 다중 작업 학습 기반 임의 형태 텍스트 검출기
초록

최근 몇 년 동안 임의의 형태를 가진 장면 텍스트 검출은 어려운 과제였습니다. 본 논문에서는 Fully Convolutional Network (FCN)을 기반으로 한 컨텍스트 주목 다중 작업 학습 프레임워크를 사용하여 다양한 기하학적 속성을 학습하여 텍스트 영역의 다각형 표현을 재구성하는 새로운 분할 기반 텍스트 검출기, 즉 SAST를 제안합니다. 텍스트의 순차적 특성을 고려하여, 장거리 픽셀 정보 의존성을 포착하여 더 신뢰할 수 있는 분할을 얻기 위한 컨텍스트 주목 블록이 도입되었습니다. 후처리 단계에서는 고수준 객체 지식과 저수준 픽셀 정보를 단일 샷으로 통합하여 픽셀을 텍스트 인스턴스로 클러스터링하는 Point-to-Quad 할당 방법이 제안되었습니다. 또한, 제안된 기하학적 속성을 통해 임의의 형태를 가진 텍스트의 다각형 표현을 더욱 효과적으로 추출할 수 있습니다. ICDAR2015, ICDAR2017-MLT, SCUT-CTW1500, Total-Text 등의 여러 벤치마크에서 수행한 실험 결과, SAST는 정확도 측면에서 더 나은 또는 유사한 성능을 보임을 입증하였습니다. 또한, 제안된 알고리즘은 단일 NVIDIA Titan Xp 그래픽 카드에서 SCUT-CTW1500 데이터셋에 대해 27.63 FPS로 실행되며, Hmean이 81.0%인 것으로 나타났으며, 대부분의 기존 분할 기반 방법들을 능가하였습니다.

단일 샷 컨텍스트 주의 다중 작업 학습 기반 임의 형태 텍스트 검출기 | 최신 연구 논문 | HyperAI초신경