2달 전

손글씨 텍스트 인식을 위한 시퀀스-투-시퀀스 모델 평가

Johannes Michael; Roger Labahn; Tobias Grüning; Jochen Zöllner
손글씨 텍스트 인식을 위한 시퀀스-투-시퀀스 모델 평가
초록

인코더-디코더 모델은 기계 번역, 이미지 캡셔닝 및 음성 인식과 같은 시퀀스 학습 과제에 효과적인 접근 방식이 되었지만, 손글씨 텍스트 인식에서는 아직 경쟁력 있는 결과를 보여주지 못했습니다. 이를 해결하기 위해 우리는 주의 메커니즘(attention mechanism)을 기반으로 하는 시퀀스-투-시퀀스 모델을 제안합니다. 이 모델은 일반적인 특징 추출기로 사용되는 컨볼루션 신경망(convolutional neural network)과 입력 이미지 내 문자 간의 시각적 정보와 시간적 맥락을 인코딩하는 순환 신경망(recurrent neural network)을 결합하며, 별도의 순환 신경망을 사용하여 실제 문자 시퀀스를 디코딩합니다. 다양한 주의 메커니즘과 위치 인코딩(positional encoding) 간의 실험적 비교를 통해 입력 시퀀스와 출력 시퀀스 간의 적절한 정렬을 찾습니다. 이 모델은 엔드-투-엔드로 훈련될 수 있으며, 하이브리드 손실(hybrid loss)의 선택적 통합은 필요한 경우 인코더가 해석 가능하고 사용 가능한 출력을 유지할 수 있도록 합니다. 언어 모델(language model) 없이 IAM 및 ICFHR2016 READ 데이터 세트에서 최신 연구와 비교해 경쟁력 있는 결과를 달성하였으며, 최근의 모든 시퀀스-투-시퀀스 접근 방식보다 크게 개선되었습니다.

손글씨 텍스트 인식을 위한 시퀀스-투-시퀀스 모델 평가 | 최신 연구 논문 | HyperAI초신경