2달 전

진단 확장 네트워크를 이용한 형태 강건한 텍스트 검출

Wenhai Wang; Enze Xie; Xiang Li; Wenbo Hou; Tong Lu; Gang Yu; Shuai Shao
진단 확장 네트워크를 이용한 형태 강건한 텍스트 검출
초록

장면 텍스트 검출은 특히 컨볼루션 신경망의 최근 발전으로 급속한 진보를 이루었습니다. 그러나 여전히 산업 응용으로의 전환을 방해하는 두 가지 과제가 남아 있습니다. 첫째, 대부분의 최신 알고리즘은 임의의 형태를 가진 텍스트를 정확하게 위치시키기에는 부정확한 사각형 경계 상자(quadrangle bounding box)를 필요로 합니다. 둘째, 서로 가까운 두 개의 텍스트 인스턴스는 하나의 검출 결과로 잘못 인식되어 양쪽 인스턴스를 모두 포함할 수 있습니다. 전통적으로, 분할 기반 접근법은 첫 번째 문제를 완화할 수 있지만 일반적으로 두 번째 과제를 해결하지 못합니다. 이러한 두 가지 과제를 해결하기 위해 본 논문에서는 임의 형태의 텍스트 인스턴스를 정밀하게 검출할 수 있는 새로운 점진적 스케일 확장 네트워크(Progressive Scale Expansion Network, PSENet)를 제안합니다. 구체적으로, PSENet은 각 텍스트 인스턴스에 대해 다양한 크기의 커널을 생성하고, 최소 크기 커널을 점차적으로 완전한 형태의 텍스트 인스턴스로 확장시킵니다. 최소 크기 커널들 사이에 큰 기하학적 여유 공간이 존재하기 때문에, 이 방법은 가까운 텍스트 인스턴스들을 분리하는 데 효과적이며, 이를 통해 분할 기반 방법을 사용하여 임의 형태의 �텍스트 인스턴스를 검출하기가 더 쉽습니다. CTW1500, Total-Text, ICDAR 2015 및 ICDAR 2017 MLT 데이터셋에서 수행된 광범위한 실험들은 PSENet의 유효성을 입증하였습니다. 특히 CTW1500 데이터셋에서, 이 데이터셋은 긴 곡선 텍스트로 가득 차 있으며, PSENet은 27 FPS에서 F-측정치(F-measure) 74.3%를 달성하였으며, 우리 최고 F-측정치(82.2%)는 최신 알고리즘보다 6.6% 우수한 성능을 보였습니다. 코드는 미래에 공개될 예정입니다.

진단 확장 네트워크를 이용한 형태 강건한 텍스트 검출 | 최신 연구 논문 | HyperAI초신경