
기존의 합성곱 신경망(Convolutional Neural Networks, CNN)은 손글씨 텍스트 인식(Handwritten Text Recognition, HTR) 과제에서 유망한 성과를 보였지만, 여전히 순환 신경망(RNN) 또는 트랜스포머 기반 모델에 비해 성능 면에서 뒤처지고 있다. 본 논문에서는 이러한 성능 격차를 해소하기 위한 CNN 기반 아키텍처를 제안한다. 본 연구에서 제안하는 모델인 Easter2.0는 1차원 합성곱, 배치 정규화(Batch Normalization), ReLU, 드롭아웃(Dropout), 밀도형 잔차 연결(Dense Residual connection), 스퀴즈 앤 엑사이트션(Squeeze-and-Excitation, SE) 모듈을 다층적으로 구성하며, 연결주의 시계열 분류(Connectionist Temporal Classification, CTC) 손실 함수를 활용한다. 또한 Easter2.0 아키텍처 외에도 HTR/OCR 작업에 적합한 간단하면서도 효과적인 데이터 증강 기법인 ‘타일링 및 손상(Tiling and Corruption, TACO)’을 제안한다. 제안한 방법은 공개된 훈련 데이터만을 사용하여 IAM 손글씨 데이터베이스에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다. 실험을 통해 TACO 증강 기법과 SE 모듈이 텍스트 인식 정확도에 미치는 영향을 분석하였으며, 추가적으로 Easter2.0가 제한된 레이블 데이터로 훈련되었을 때도 소수 샘플 학습(few-shot learning) 과제에 적합하며, 트랜스포머를 포함한 기존 최고 성능 모델들을 상회함을 보였다. 코드 및 모델은 다음 링크에서 공개된다: https://github.com/kartikgill/Easter2