
지속적 수어 인식(Continuous Sign Language Recognition, CSLR)은 자르지 않은 수어 영상에서 수어를 텍스트 형태의 글로스(gloss)로 인식하는 것을 목표로 한다. CSLR의 핵심 과제는 영상 시퀀스와 글로스 시퀀스 간의 효과적인 다중 모달 간 정렬을 통해 영상 표현을 향상시키는 것이다. 그러나 기존의 다중 모달 정렬 패러다임은 글로스의 언어 문법이 전역 시계열적 맥락을 학습하는 과정에서 영상 표현을 안내하는 역할을 간과하는 경향이 있으며, 이는 인식 성능 저하로 이어진다. 이러한 한계를 극복하기 위해, 우리는 '노이즈 제거-대비 정렬(Denoising-Contrastive Alignment, DCA)' 패러다임을 제안한다. DCA는 문법적 구조를 창의적으로 활용하여 두 가지 보완적인 접근 방식을 통해 영상 표현을 강화한다: 첫째, 글로스와 수어 간의 인스턴스 대응 관계를 구분의 관점에서 모델링하고, 둘째, 전역 맥락을 생성의 관점에서 정렬한다. 구체적으로, DCA는 대비 손실(contrastive loss)을 이용하여 수어와 글로스 간의 유연한 인스턴스 수준의 대응을 달성한다. 이를 기반으로, DCA는 영상 표현을 기반으로 노이즈가 첨가된 글로스 표현을 복원함으로써 영상 시퀀스와 글로스 시퀀스 간의 전역 맥락 정렬을 모델링한다. 더불어, DCA는 정렬 및 인식 과정의 기울기를 최적화하기 위해 기울기 조절(gradient modulation) 기법을 도입하여 보다 효과적인 학습 프로세스를 보장한다. 글로스 수준의 정보와 전역 맥락 지식을 통합함으로써, DCA는 CSLR 작업에서 영상 표현의 품질을 크게 향상시킨다. 공개 벤치마크를 대상으로 한 실험 결과는 DCA의 효과성을 입증하며, 영상 표현 향상의 타당성 또한 확인하였다.