11일 전

TPS++: 시나리오 텍스트 인식을 위한 주의력 강화형 얇은 플레이트 스플라인

Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang
TPS++: 시나리오 텍스트 인식을 위한 주의력 강화형 얇은 플레이트 스플라인
초록

장면 내 텍스트의 불규칙성은 텍스트 인식 모델에 큰 도전 과제를 제기한다. 특히, 얇은 판 스플라인(Thin-Plate Spline, TPS) 기반 보정 기법은 이러한 문제를 해결하는 효과적인 방법으로 널리 인식되고 있다. 그러나 기존의 TPS 변환 파라미터 계산은 주로 추정된 텍스트 경계의 품질에 의존하며, 텍스트 내용 자체를 고려하지 않아 심각하게 왜곡된 텍스트에 대해 만족스럽지 않은 보정 결과를 초래하는 경향이 있다. 본 연구에서는 처음으로 주의 메커니즘(attention mechanism)을 텍스트 보정에 도입한 TPS++를 제안한다. TPS++는 전경 제어점 회귀와 콘텐츠 기반 주의 점수 추정을 통합된 과정으로 정의하며, 이는 전용으로 설계된 게이트형 주의 블록(gated-attention block)을 통해 계산된다. 이를 통해 TPS++는 더 유연하고 콘텐츠 인식형 보정기를 구축하여, 후속 인식기에서 보다 자연스럽고 읽기 쉬운 텍스트 보정 결과를 생성한다. 또한 TPS++는 인식기와 일부 특징 백본(feature backbone)을 공유하며, 이미지 수준이 아닌 특징 수준에서 보정을 수행함으로써 파라미터 수와 추론 시간의 증가를 최소화한다. 공개 벤치마크에서의 실험 결과, TPS++는 지속적으로 인식 성능을 향상시키며 최신 기술 수준(SOTA)의 정확도를 달성하였다. 더불어 다양한 백본 및 인식기 구조에 대해 우수한 일반화 능력을 보였다. 코드는 https://github.com/simplify23/TPS_PP 에 공개되어 있다.

TPS++: 시나리오 텍스트 인식을 위한 주의력 강화형 얇은 플레이트 스플라인 | 최신 연구 논문 | HyperAI초신경