2달 전

자연 이미지에서 방향성 텍스트를 감지하기 위한 세그먼트 연결 방법

Shi, Baoguang ; Bai, Xiang ; Belongie, Serge
자연 이미지에서 방향성 텍스트를 감지하기 위한 세그먼트 연결 방법
초록

최신의 대부분 텍스트 검출 방법은 수평 방향의 라틴 문자에 특화되어 있으며, 실시간 응용 프로그램에는 충분히 빠르지 않습니다. 본 연구에서는 Segment Linking(SegLink)이라는 회전된 텍스트 검출 방법을 소개합니다. 이 방법의 핵심 아이디어는 텍스트를 세그먼트와 링크라는 두 개의 로컬로 검출 가능한 요소로 분해하는 것입니다. 세그먼트는 단어나 텍스트 줄의 일부를 덮는 회전된 박스이며, 링크는 두 인접한 세그먼트를 연결하여 같은 단어나 텍스트 줄에 속함을 나타냅니다. 이 두 요소는 엔드투엔드(end-to-end)로 학습된 완전 컨볼루션 신경망(fully-convolutional neural network)을 통해 여러 스케일에서 밀집하게 검출됩니다. 최종 검출 결과는 링크로 연결된 세그먼트들을 결합하여 생성됩니다. 기존 방법들과 비교할 때, SegLink는 정확성, 속도, 그리고 학습 용이성 측면에서 개선되었습니다. SegLink는 표준 ICDAR 2015 Incidental(Challenge 4) 벤치마크에서 F-측정값(F-measure) 75.0%를 달성하여, 이전 최고 성능을 크게 능가했습니다. 512x512 이미지에서 20FPS 이상으로 실행되며, 수정 없이도 중국어와 같은 비라틴 문자의 긴 줄을 검출할 수 있습니다.

자연 이미지에서 방향성 텍스트를 감지하기 위한 세그먼트 연결 방법 | 최신 연구 논문 | HyperAI초신경