11일 전

장면 텍스트 인식에 대한 분류 관점의 재검토

Hongxiang Cai, Jun Sun, Yichao Xiong
장면 텍스트 인식에 대한 분류 관점의 재검토
초록

장면 텍스트 인식의 일반적인 관점은 시퀀스에서 시퀀스(sequenceto-sequence, seq2seq) 및 세그멘테이션 방식이다. 그러나 seq2seq 접근법은 여러 구성 요소로 이루어져 있어 구현과 배포가 복잡하며, 세그멘테이션 방식은 문자 수준의 레이블링이 필요하여 비용이 많이 든다. 본 논문에서는 장면 텍스트 인식을 이미지 분류 문제로 모델링하는 분류 관점(classification perspective)을 재검토한다. 분류 관점은 간단한 파이프라인을 가지며, 단어 수준의 레이블링만 필요하다. 이를 위해 CSTR(Classification Perspective for Scene Text Recognition)라는 새로운 장면 텍스트 인식 모델을 제안한다. 이 모델은 다른 관점의 방법들과 경쟁 가능한 성능을 보인다. CSTR 모델은 CPNet(Classification Perspective Network)와 SPPN(Separated Convolution with Global Average Pooling Prediction Network)으로 구성되어 있으며, ResNet \cite{he2016deep}과 같은 이미지 분류 모델과 유사한 간결한 구조를 갖추고 있어 구현 및 배포가 용이하다. 광범위한 실험을 통해 분류 관점이 장면 텍스트 인식에 효과적임을 입증한다. 또한 CSTR는 정규 텍스트와 비정규 텍스트를 포함한 6개의 공개 벤치마크에서 거의 최첨단 성능을 달성한다. 코드는 https://github.com/Media-Smart/vedastr 에 공개될 예정이다.

장면 텍스트 인식에 대한 분류 관점의 재검토 | 최신 연구 논문 | HyperAI초신경