8일 전

SwinTextSpotter: 텍스트 검출과 텍스트 인식 간의 더 나은 융합을 통한 장면 텍스트 스폿팅

Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
SwinTextSpotter: 텍스트 검출과 텍스트 인식 간의 더 나은 융합을 통한 장면 텍스트 스폿팅
초록

최근 들어, 장면 텍스트 탐지와 인식 간 내재적 상호작용을 효과적으로 활용한 성공 사례로 인해 엔드투엔드 장면 텍스트 스포팅(end-to-end scene text spotting)에 대한 관심이 크게 증가하고 있다. 그러나 최근 최신 기법들은 주로 백본(Backbone)을 공유하는 방식으로 탐지와 인식을 단순히 통합하는 경향이 있으며, 이는 두 작업 간의 특징 상호작용을 직접적으로 활용하지 못한다는 한계가 있다. 본 논문에서는 새로운 엔드투엔드 장면 텍스트 스포팅 프레임워크인 SwinTextSpotter를 제안한다. 동적 헤드(dynamic head)를 갖춘 트랜스포머 인코더를 탐지기로 사용하여, 새로운 '인식 변환(Recognition Conversion)' 메커니즘을 도입함으로써 두 작업을 통합하고, 인식 손실을 통해 텍스트 위치를 명시적으로 안내한다. 이 간결한 설계는 추가적인 보정 모듈이나 임의 형태의 텍스트에 대한 문자 수준(annotation)을 필요로 하지 않으며, 매우 간결한 프레임워크를 구현한다. 다각도의 데이터셋인 다각도 텍스트 데이터셋 RoIC13 및 ICDAR 2015, 임의 형태의 텍스트 데이터셋 Total-Text 및 CTW1500, 그리고 다국어 데이터셋 ReCTS(중국어)와 VinText(베트남어)에 대한 정성적 및 정량적 실험 결과는 SwinTextSpotter가 기존 방법들에 비해 뚜렷한 성능 우위를 보임을 입증한다. 코드는 https://github.com/mxin262/SwinTextSpotter 에서 공개되어 있다.

SwinTextSpotter: 텍스트 검출과 텍스트 인식 간의 더 나은 융합을 통한 장면 텍스트 스폿팅 | 최신 연구 논문 | HyperAI초신경