진단 확장 네트워크를 이용한 형태 강건한 텍스트 검출

형상 강건한 텍스트 검출의 어려움은 두 가지 측면에서 나타납니다: 1) 대부분의 기존 사각형 바운딩 박스 기반 검출기는 임의의 형상을 가진 텍스트를 완벽하게 사각형으로 감싸는 것이 어렵습니다; 2) 대부분의 픽셀 단위 분할 기반 검출기는 서로 매우 가까이 위치한 텍스트 인스턴스를 구분하는 데 실패할 수 있습니다. 이러한 문제들을 해결하기 위해, 우리는 새로운 다단계 스케일 확장 네트워크 (Progressive Scale Expansion Network, PSENet)를 제안합니다. 이 네트워크는 각 텍스트 인스턴스에 대해 여러 예측을 수행하는 분할 기반 검출기로 설계되었습니다. 이러한 예측들은 원래 텍스트 인스턴스를 다양한 스케일로 축소하여 생성된 다른 '커널'들에 해당합니다. 결과적으로, 최종 검출은 우리의 점진적인 스케일 확장 알고리즘을 통해 최소 스케일의 커널을 점차적으로 최대 및 완전한 형상의 텍스트 인스턴스로 확장함으로써 이루어집니다. 이러한 최소 커널들 사이에 큰 기하학적 여백이 존재하기 때문에, 우리의 방법은 가까이 위치한 텍스트 인스턴스를 구분하는 데 효과적이며 임의의 형상에 강건합니다. ICDAR 2015와 ICDAR 2017 MLT 벤치마크에서 가장 앞선 결과들이 PSENet의 뛰어난 효과성을 더욱 확인해주고 있습니다. 특히, PSENet은 곡선 텍스트 데이터셋인 SCUT-CTW1500에서 이전 최고 성능을 절대적으로 6.37% 개선했습니다. 코드는 https://github.com/whai362/PSENet에서 제공될 예정입니다.