9일 전

다중모달 국지적 강화 트랜스포머를 활용한 지속적 수어 인식

{Gerasimos Potamianos, Katerina Papadimitriou}
초록

본 논문에서는 영상에서 지속적 수어 인식(Continuous Sign Language Recognition, CSLR)을 위한 새로운 Transformer 기반 접근법을 제안한다. 이는 기존 Transformer가 수어의 국소적 의미적 맥락을 학습하는 데 한계가 있음을 보완하고자 한다. 구체적으로 제안하는 방법은 두 가지 독립적인 구성 요소에 기반한다. (a) 국소적 시간적 맥락을 포착하기 위한 윈도우 기반 RNN 모듈과, (b) 가우시안 편향(Gaussian bias)과 상대적 위치 정보를 통한 국소 모델링 및 다중 헤드 어텐션을 통한 전역 구조 모델링을 통해 강화된 Transformer 인코더이다. 모델 성능을 추가로 향상시키기 위해, 제안한 방법을 시각적 특징(appearance) 및 운동적 특징(motion) 두 가지 서브스트림에 적용하는 다모달 프레임워크를 설계하였으며, 가이드 CTC 기법을 통해 두 서브스트림의 사후 확률(posterior)을 정렬한다. 또한 지식 증류(Knowledge Distillation) 손실을 도입함으로써 시각적 특징과 어휘 시퀀스(gloss sequence) 간의 정렬을 달성한다. 제안한 모델은 두 개의 대표적인 독일어 수어 인식 데이터셋에 대해 실험적으로 평가되었으며, 기존 방법 대비 우수한 성능을 입증하였다.