
초록
이 논문에서는 트랜스포머 인코더와 연결주의적 시계열 분류(CTC, Connectionist Temporal Classification)를 기반으로 한 지속적 수어 인식(CSLR, Continuous Sign Language Recognition) 시스템의 다양한 구성 요소에 대한 새로운 확률적 모델링을 제안한다. 특히, 각 수어 글로스(sign gloss)를 다수의 상태(state)로 모델링하며, 상태 수는 학습된 확률 분포를 따르는 범주형 확률 변수로 설정함으로써, CTC 디코더 학습을 위한 확률적이고 미세한 레이블을 제공한다. 또한, 트랜스포머 모델을 CTC 손실 함수로 학습할 때 발생하는 심각한 과적합 문제를 해결하기 위해 확률적 프레임 제거 메커니즘과 그래디언트 정지 기법을 제안한다. 이 두 가지 기법은 학습 시 계산량을 시간적·공간적으로 크게 감소시키는 데에도 기여한다. 제안한 모델은 대표적인 CSLR 데이터셋에서 평가되었으며, 최신 기술 대비 뛰어난 성능을 보여줌으로써 그 유효성을 입증하였다.