
최근 몇 년 동안 딥러닝 기술은 영상 기반 지속적 수어 인식(Continuous Sign Language Recognition, CSLR) 분야에서 획기적인 발전을 이끌었다. 현재 일반적으로 사용되는 CSLR 네트워크 구성은 시공간 정보를 중심으로 처리하는 시각 모듈과 장기적인 시계열 정보에 집중하는 문맥 모듈로 구성되며, 네트워크 학습에는 Connectionist Temporal Classification(CTC) 손실 함수가 활용된다. 그러나 역전파 과정에서 체인 규칙(chain rule)의 한계로 인해 시각 모듈이 최적의 시각적 특징을 탐색하기 위해 조정되기 어려운 문제가 발생한다. 이로 인해 문맥 모듈은 시각적 정보와 문맥 정보의 균형을 맞추는 대신, 단지 문맥 정보 최적화에만 집중하게 되는 문제가 생긴다. 본 논문에서는 시각 모듈과 문맥 모듈이 각각 단기적 정보와 장기적 정보에 집중하도록 유도하고, 두 모듈의 구분 능력을 동시에 향상시키는 자기 상호 지식 증류(Self-Mutual Knowledge Distillation, SMKD) 방법을 제안한다. 구체적으로, 시각 모듈과 문맥 모듈은 각각의 분류기 가중치를 공유하며, 동시에 CTC 손실 함수를 사용하여 함께 학습한다. 또한 CTC 손실 함수는 일반적으로 '스파이크 현상(spiking phenomenon)'을 유발하는데, 이는 단어(gloss) 내 핵심 프레임을 선택하는 데 도움이 되지만, 다른 프레임을 무시하게 되어 시각적 특징이 초기 단계에서 포화 상태에 빠지게 만든다. 이를 해결하기 위해, 스파이크 현상을 완화하고 시각 모듈의 특징 포화를 줄이기 위해 단어 분할(gloss segmentation) 기법을 도입하였다. 제안된 방법은 PHOENIX14 및 PHOENIX14-T 두 가지 CSLR 기준 데이터셋을 대상으로 실험을 수행하였으며, 실험 결과 SMKD의 효과성을 입증하였다.