8일 전

DeepSolo++: 명시적 포인트를 갖춘 Transformer Decoder를 활용한 다국어 텍스트 스포팅

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo++: 명시적 포인트를 갖춘 Transformer Decoder를 활용한 다국어 텍스트 스포팅
초록

엔드투엔드 텍스트 스포팅은 장면 텍스트 탐지와 인식을 통합된 프레임워크로 통합하는 것을 목표로 한다. 두 하위 작업 간의 관계를 효과적으로 다루는 것은 효율적인 스포터 설계에 있어 핵심적인 요소이다. 비록 트랜스포머 기반 방법은 휴리스틱한 후처리 과정을 제거하지만, 여전히 하위 작업 간의 상호작용 문제와 낮은 학습 효율성 문제를 겪고 있다. 게다가 다국어 텍스트 스포팅에 대한 탐색이 간과되었으며, 이는 별도의 스크립트 식별 작업을 필요로 한다. 본 논문에서는 단일 디코더를 활용하여 명시적인 점(point)을 통해 텍스트 탐지, 인식, 스크립트 식별을 동시에 수행하는 간단한 DETR 유사 기준 모델인 DeepSolo++을 제안한다. 기술적으로 각 텍스트 인스턴스에 대해 문자열을 순서 있는 점으로 표현하고, 학습 가능한 명시적 점 쿼리로 모델링한다. 단일 디코더를 통과한 후, 점 쿼리는 필요한 텍스트 의미와 위치 정보를 인코딩하게 되며, 이후 매우 단순한 예측 헤드를 병렬로 사용하여 중심선, 경계, 스크립트, 신뢰도를 추출할 수 있다. 또한 본 방법의 놀라운 확장성(문자 클래스, 언어 유형, 작업 유형 측면)을 입증한다. 한편으로는 영어 장면에서 뛰어난 성능을 보일 뿐만 아니라, 중국어와 같이 복잡한 폰트 구조와 천 수준의 문자 클래스를 가진 전사 작업에도 능숙하다. 다른 한편으로는 이전 방법에 비해 더 간단한 학습 파이프라인을 통해 추가적으로 도입된 스크립트 식별 작업에서도 더 우수한 성능을 달성한다. 또한 본 모델은 다각형보다 훨씬 낮은 레이블링 비용을 요구하는 라인(annotation) 레이블에도 호환 가능하다. 코드는 \url{https://github.com/ViTAE-Transformer/DeepSolo}에서 공개되어 있다.

DeepSolo++: 명시적 포인트를 갖춘 Transformer Decoder를 활용한 다국어 텍스트 스포팅 | 최신 연구 논문 | HyperAI초신경