8일 전

SPTS: 싱글포인트 텍스트 스폿팅

Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
SPTS: 싱글포인트 텍스트 스폿팅
초록

기존의 장면 텍스트 스포팅(즉, 엔드투엔드 텍스트 탐지 및 인식) 방법은 비용이 높은 경계상자(annotation, 예: 텍스트 라인, 단어 수준 또는 문자 수준의 경계상자)를 요구한다. 본 연구에서는, 각 인스턴스에 대해 단일 점(annotation)만으로도 장면 텍스트 스포팅 모델을 학습할 수 있음을 처음으로 입증한다. 우리는 엔드투엔드 장면 텍스트 스포팅을 시퀀스 예측 문제로 접근하는 방법을 제안한다. 입력으로 이미지를 제공받은 후, 원하는 탐지 및 인식 결과를 이산 토큰의 시퀀스로 정의하고, 자동 회귀적(autoregressive) Transformer를 사용하여 시퀀스를 예측한다. 제안된 방법은 간단하면서도 효과적이며, 널리 사용되는 벤치마크에서 최신 기술 수준의 성능을 달성한다. 특히 중요한 점은, 점(annotation)의 위치에 대해 성능이 크게 민감하지 않다는 점이다. 즉, 정밀한 위치를 요구하는 경계상자와 달리, 점(annotation)은 훨씬 더 쉽게 레이블링할 수 있으며, 자동으로 생성될 수도 있음을 시사한다. 우리는 이러한 선도적인 시도가 기존보다 훨씬 규모가 큰 장면 텍스트 스포팅 응용의 가능성을 열어줄 것이라고 믿는다. 코드는 https://github.com/shannanyinxiang/SPTS 에서 공개되어 있다.

SPTS: 싱글포인트 텍스트 스폿팅 | 최신 연구 논문 | HyperAI초신경