15일 전

읽는 내용에 주의를 기울이세요: 비반복형 손글씨 문장선 인식

Lei Kang, Pau Riba, Marçal Rusiñol, Alicia Fornés, Mauricio Villegas
읽는 내용에 주의를 기울이세요: 비반복형 손글씨 문장선 인식
초록

손글씨 인식을 위한 순환 신경망(RNN)의 등장은 다양한 글쓰기 스타일 간의 큰 변동성에도 불구하고 높은 인식 정확도를 달성한 중요한 전환점이었다. 시계열 구조는 텍스트 라인을 모델링하는 데 이상적인 적합성을 지닌다. 이는 텍스트 자체가 내재된 시간적 특성을 지니고 있기 때문이며, 문자 및 단어 시퀀스에 대한 확률 분포를 학습할 수 있기 때문이다. 그러나 이러한 순환 구조를 사용하는 것은 학습 단계에서 비용이 크다. 왜냐하면 순차적 처리 파이프라인은 병렬화를 방해하기 때문이다. 본 연구에서는 트랜스포머 모델을 활용한 비순환적 접근법을 제안하여 손글씨 텍스트를 인식한다. 우리는 어떠한 순환 구조도 사용하지 않는 새로운 방법을 제안한다. 시각적 및 텍스트적 단계 모두에서 멀티헤드 자체 주의(Multi-head Self-attention) 레이어를 사용함으로써, 문자 인식뿐만 아니라 복호화할 문자 시퀀스의 언어적 의존성도 학습할 수 있다. 본 모델은 사전에 정의된 어휘에 제약되지 않으며, 훈련 어휘에 존재하지 않는 외부 어휘(Out-of-vocabulary) 단어도 인식할 수 있다. 기존 기술에 비해 크게 진보하였으며, 소량의 학습 데이터(피셔 학습, Few-shot learning) 상황에서도 만족스러운 인식 정확도를 달성함을 입증하였다.

읽는 내용에 주의를 기울이세요: 비반복형 손글씨 문장선 인식 | 최신 연구 논문 | HyperAI초신경