SRFormer: 분할과 회귀를 통합한 텍스트 탐지 트랜스포머

기존의 텍스트 탐지 기법은 주로 두 가지 주요 그룹으로 나눌 수 있다. 하나는 세그멘테이션 기반 기법이고, 다른 하나는 회귀 기반 기법이다. 세그멘테이션 기반 모델은 폰트 변형에 대해 높은 강건성을 제공하지만, 복잡한 후처리 과정을 필요로 하여 높은 계산 부담을 초래한다. 반면 회귀 기반 기법은 인스턴스 인식 예측을 수행하지만, 고수준 표현에 의존함으로써 강건성과 데이터 효율성 측면에서 한계를 지닌다. 본 연구에서는 이러한 문제를 해결하고자, 세그멘테이션과 회귀를 통합한 통합형 DETR 기반 모델인 SRFormer을 제안한다. 이 모델은 세그멘테이션 표현의 본질적 강건성과 인스턴스 수준 회귀의 간단한 후처리 특성을 유기적으로 결합함으로써 성능 향상을 도모한다. 실험적 분석 결과, 초기 디코더 레이어에서 우수한 세그멘테이션 예측을 얻을 수 있음을 확인하였다. 이를 바탕으로 세그멘테이션 브랜치의 적용을 초기 몇 개의 디코더 레이어에 제한하고, 이후 레이어에서는 점진적인 회귀 개선을 수행함으로써 계산 부담을 최소화하면서도 성능 향상을 달성하였다. 또한, 마스크를 활용한 쿼리 강화 모듈(Mask-informed Query Enhancement module)을 제안한다. 이 모듈은 세그멘테이션 결과를 자연스러운 소프트-ROI(Region of Interest)로 활용하여 강건한 픽셀 표현을 추출하고, 이를 인스턴스 쿼리의 풍부함과 다양성을 높이는 데 사용한다. 다양한 벤치마크에서 실시한 광범위한 실험을 통해 제안한 방법이 뛰어난 강건성, 우수한 학습 및 데이터 효율성, 그리고 최첨단 성능을 동시에 달성함을 입증하였다. 본 연구의 코드는 https://github.com/retsuh-bqw/SRFormer-Text-Det 에 공개되어 있다.