8일 전
시퀀스 생성 기반의 통합된 장면 텍스트 스폿팅 방향
Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim

초록
최근(sequence generation 모델)은 다양한 시각 작업을 통합하는 데 있어 중요한 진전을 보였다. 일부 자기회귀적 모델은 엔드투엔드 텍스트 스포팅(task)에서 유망한 성과를 보였지만, 특정 탐지 형식을 사용하면서 다양한 텍스트 형태를 무시하고, 탐지 가능한 텍스트 인스턴스의 최대 수량에 한계가 있었다. 이러한 제약을 극복하기 위해, 본 연구에서는 다양한 탐지 형식을 통합하는 새로운 시나리오 텍스트 스포터인 UNITS(UNIfied scene Text Spotter)를 제안한다. 제안한 모델은 사각형, 다각형 등 다양한 탐지 형식을 통합하여 임의의 형태의 텍스트도 탐지할 수 있도록 하였다. 또한, 시작점 프롬프팅(Starting-point prompting) 기법을 도입하여 모델이 임의의 시작 지점에서 텍스트를 추출할 수 있도록 하였으며, 이로 인해 훈련 시 배정된 인스턴스 수를 초월한 더 많은 텍스트를 추출할 수 있게 되었다. 실험 결과, 제안한 방법은 최신 기술 대비 경쟁력 있는 성능을 달성함을 확인하였다. 추가 분석을 통해 UNITS가 훈련 시 배정된 인스턴스 수를 초월하여 더 많은 텍스트를 추출할 수 있음을 확인하였다. 본 연구의 코드는 https://github.com/clovaai/units 에 공개되어 있다.