15일 전

이스터2.0: 수기 텍스트 인식을 위한 합성곱 모델 개선

Kartik Chaudhary, Raghav Bali
이스터2.0: 수기 텍스트 인식을 위한 합성곱 모델 개선
초록

기존의 합성곱 신경망(Convolutional Neural Networks, CNN)은 손글씨 텍스트 인식(Handwritten Text Recognition, HTR) 과제에서 유망한 성과를 보였지만, 여전히 순환 신경망(RNN) 또는 트랜스포머 기반 모델에 비해 성능 면에서 뒤처지고 있다. 본 논문에서는 이러한 성능 격차를 해소하기 위한 CNN 기반 아키텍처를 제안한다. 본 연구에서 제안하는 모델인 Easter2.0는 1차원 합성곱, 배치 정규화(Batch Normalization), ReLU, 드롭아웃(Dropout), 밀도형 잔차 연결(Dense Residual connection), 스퀴즈 앤 엑사이트션(Squeeze-and-Excitation, SE) 모듈을 다층적으로 구성하며, 연결주의 시계열 분류(Connectionist Temporal Classification, CTC) 손실 함수를 활용한다. 또한 Easter2.0 아키텍처 외에도 HTR/OCR 작업에 적합한 간단하면서도 효과적인 데이터 증강 기법인 ‘타일링 및 손상(Tiling and Corruption, TACO)’을 제안한다. 제안한 방법은 공개된 훈련 데이터만을 사용하여 IAM 손글씨 데이터베이스에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다. 실험을 통해 TACO 증강 기법과 SE 모듈이 텍스트 인식 정확도에 미치는 영향을 분석하였으며, 추가적으로 Easter2.0가 제한된 레이블 데이터로 훈련되었을 때도 소수 샘플 학습(few-shot learning) 과제에 적합하며, 트랜스포머를 포함한 기존 최고 성능 모델들을 상회함을 보였다. 코드 및 모델은 다음 링크에서 공개된다: https://github.com/kartikgill/Easter2

이스터2.0: 수기 텍스트 인식을 위한 합성곱 모델 개선 | 최신 연구 논문 | HyperAI초신경