8일 전

DeepSolo: 명시적 점을 갖춘 Transformer Decoder가 텍스트 스폿팅을 위한 솔로 수행

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo: 명시적 점을 갖춘 Transformer Decoder가 텍스트 스폿팅을 위한 솔로 수행
초록

엔드투엔드 텍스트 스포팅은 장면 텍스트 탐지와 인식을 통합된 프레임워크 내에서 수행하는 것을 목표로 한다. 두 하위 작업 간의 관계를 효과적으로 다루는 것은 효율적인 스포터 설계에 핵심적인 역할을 한다. 기존의 트랜스포머 기반 방법들은 휴리스틱한 후처리 과정을 제거하지만, 여전히 하위 작업 간의 상호작용 문제와 낮은 학습 효율성의 문제를 겪고 있다. 본 논문에서는 단일 디코더를 활용하여 명시적인 점(Point)을 통해 텍스트 탐지와 인식을 동시에 수행하는 간단한 DETR 유사 기준 모델인 DeepSolo를 제안한다. 기술적으로 각 텍스트 인스턴스에 대해 문자열을 순서가 있는 점으로 표현하고, 학습 가능한 명시적 점 쿼리(learnable explicit point queries)를 통해 이를 모델링한다. 단일 디코더를 통과한 후, 점 쿼리는 필요한 텍스트 의미 정보와 위치 정보를 인코딩하게 되며, 이후 매우 간단한 예측 헤드를 병렬로 활용하여 중심선, 경계선, 글꼴 스타일, 신뢰도를 추출할 수 있다. 또한, 더 정확한 지도 신호를 제공하기 위해 텍스트 매칭 기준(text-matching criterion)을 도입하여 학습 효율성을 더욱 높였다. 공개 벤치마크에서 수행한 정량적 실험 결과, DeepSolo는 기존 최고 성능 기법들을 모두 상회하며 더 뛰어난 학습 효율성을 보였다. 더불어 DeepSolo는 다각형(annotation)보다 훨씬 낮은 어노테이션 비용을 요구하는 라인(annotation) 형식과도 호환 가능하다. 코드는 https://github.com/ViTAE-Transformer/DeepSolo 에서 공개되어 있다.