8일 전

DEER: 감지에 무관한 엔드투엔드 인식기로서 장면 텍스트 스폿팅을 위한 기법

Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
DEER: 감지에 무관한 엔드투엔드 인식기로서 장면 텍스트 스폿팅을 위한 기법
초록

최근의 엔드투엔드 시나리오 텍스트 스포팅 기법들은 임의의 형태를 가진 텍스트 인스턴스를 인식하는 데 큰 진전을 이루었다. 일반적인 텍스트 스포팅 접근 방식은 각 텍스트 인스턴스에 대해 관심 영역 풀링 또는 세그멘테이션 마스크를 사용하여 특징을 단일 텍스트 인스턴스에 국한한다. 그러나 이 방식은 검출이 정확하지 않을 경우, 예를 들어 한 글자 이상이 잘려나가는 경우, 인식기가 올바른 문자열을 디코딩하기 어려운 문제를 야기한다. 검출기만으로 단어 경계를 정확히 판단하는 것이 어렵다는 점을 고려하여, 본 연구에서는 새로운 '검출기 의존 없이 엔드투엔드 인식기'(Detection-agnostic End-to-End Recognizer, DEER) 프레임워크를 제안한다. 제안된 방법은 각 텍스트 인스턴스에 대해 하나의 참조 점을 사용하여 검출기와 인식기 간의 강한 종속성을 완화한다. 기존의 검출된 영역을 사용하는 방식과 달리, 참조 점을 통해 전체 이미지의 특징을 활용하여 텍스트를 인식할 수 있도록 한다. 단 하나의 점만으로도 텍스트를 인식할 수 있기 때문에, 본 방법은 임의의 형태의 검출기나 경계 다각형(annotation) 없이도 텍스트 스포팅을 수행할 수 있다. 실험 결과, 제안된 방법은 정규 및 임의 형태의 텍스트 스포팅 벤치마크에서 경쟁력 있는 성능을 달성하였다. 추가 분석을 통해 DEER가 검출 오류에 대해 뛰어난 내구성을 갖는다는 점도 확인되었다. 코드 및 데이터셋은 향후 공개될 예정이다.

DEER: 감지에 무관한 엔드투엔드 인식기로서 장면 텍스트 스폿팅을 위한 기법 | 최신 연구 논문 | HyperAI초신경