8일 전

TPSNet: 임의의 형상 시나리오 텍스트 표현을 위한 얇은 판 스플라인의 역사고찰

Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang
TPSNet: 임의의 형상 시나리오 텍스트 표현을 위한 얇은 판 스플라인의 역사고찰
초록

최근 몇 년간 장면 텍스트 검출 및 인식 연구의 초점은 임의의 형태를 가진 텍스트로 이동하고 있으며, 이에 따라 텍스트 형태의 표현 방식이 핵심적인 문제로 부상하고 있다. 우리 견해로는 이상적인 표현 방식은 컴팩트하고 완전하며, 효율적이면서도 후속 인식 작업에 재사용 가능한 특성을 가져야 한다. 그러나 기존의 표현 방식들은 하나 이상의 측면에서 한계를 지닌다. 흔히 사용되는 Thin-Plate-Spline(TPS) 변환은 장면 텍스트 인식 분야에서 큰 성공을 거두었다. 이러한 성과에 착안하여, 우리는 TPS의 활용 방식을 반대로 고민하고, 이를 임의의 형태 텍스트 표현에 정교하게 활용하는 새로운 접근을 제안한다. TPS 표현은 컴팩트하고 완전하며 효율적인 특성을 갖추고 있다. 예측된 TPS 매개변수를 활용하면, 검출된 텍스트 영역을 바로 수평에 가까운 형태로 정규화할 수 있어 후속 인식 과정을 크게 지원할 수 있다. TPS 표현의 잠재력을 더욱 극대화하기 위해, 경계 정렬 손실(Border Alignment Loss)을 제안한다. 이러한 설계 기반으로, 텍스트 검출기 TPSNet을 구현하였으며, 이는 간편하게 텍스트 스폿터(text spotter)로 확장 가능하다. 다양한 공개 벤치마크에 대한 광범위한 평가 및 아블레이션 실험을 통해 제안한 텍스트 표현 방식과 스폿팅 기법의 효과성과 우수성이 입증되었다. 특히, Art 데이터셋에서 검출 F-측정치가 4.4% 향상(78.4% → 74.0%)되었으며, Total-Text 데이터셋에서 엔드투엔드 스폿팅 F-측정치는 5.0% 향상(78.5% → 73.5%)되어, 별도의 복잡한 기법 없이도 매우 큰 성능 향상이 이루어졌다.

TPSNet: 임의의 형상 시나리오 텍스트 표현을 위한 얇은 판 스플라인의 역사고찰 | 최신 연구 논문 | HyperAI초신경