Mask TextSpotter v3: Robust한 장면 텍스트 스포팅을 위한 세그멘테이션 프로포절 네트워크

최근에 등장한 엔드투엔드 학습 가능한 장면 텍스트 스포팅 기법들은 탐지와 인식을 통합하여 상당한 발전을 보였다. 그러나 현재까지 대부분의 임의 형상 장면 텍스트 스포터는 제안 영역을 생성하기 위해 영역 제안 네트워크(Region Proposal Network, RPN)를 사용하고 있다. RPN은 수작업으로 설계된 앵커(anchor)에 크게 의존하며, 제안 영역을 축에 평행한 사각형으로 표현한다. 이로 인해 극단적인 종횡비 또는 비정형 형상을 가진 텍스트 인스턴스를 다루는 데 어려움이 있으며, 특히 밀도가 높고 방향성이 다양한 텍스트의 경우 하나의 제안 영역에 여러 인접한 텍스트 인스턴스가 포함되는 문제가 발생한다. 이러한 문제를 해결하기 위해, 우리는 RPN 대신 세그멘테이션 제안 네트워크(Segmentation Proposal Network, SPN)를 채택한 엔드투엔드 학습 가능한 장면 텍스트 스포터인 Mask TextSpotter v3을 제안한다. 제안된 SPN는 앵커에 의존하지 않으며, 임의 형상의 제안 영역을 정확하게 표현할 수 있다. 따라서 극단적인 종횡비나 비정형 형상을 가진 텍스트 인스턴스 탐지에서 RPN보다 우수한 성능을 발휘한다. 더불어 SPN가 생성하는 정확한 제안 영역을 통해 마스크 기반 RoI 특징을 활용하여 인접한 텍스트 인스턴스를 효과적으로 분리할 수 있다. 결과적으로 Mask TextSpotter v3는 극단적인 종횡비나 비정형 형상을 가진 텍스트 인스턴스를 처리할 수 있으며, 인접한 텍스트나 배경 노이즈의 영향을 받지 않고 높은 인식 정확도를 유지할 수 있다. 특히, 회전에 강건한 Rotated ICDAR 2013 데이터셋에서는 기존 최고 수준의 방법 대비 21.9% 향상되었으며, 형상에 강건한 Total-Text 데이터셋에서는 5.9% 향상되었고, 종횡비에 강건한 MSRA-TD500 데이터셋에서도 최고 성능을 달성하였다. 코드는 다음 링크에서 제공된다: https://github.com/MhLiao/MaskTextSpotterV3