지속적 수어 인식을 위한 시간 간 상호작용 정보의 정제

지속적 수어 인식(Continuous Sign Language Recognition, CSLR)은 수어 영상에서 글로스(gloss)를 인식하는 것을 목표로 한다. 최신 기법들은 일반적으로 공간 인지 모듈과 시계열 집계 모듈이라는 두 가지 모듈로 구성되며, 이들 모듈은 엔드 투 엔드로 공동 학습된다. 기존 연구 결과[9, 20, 25, 36]는 전체 모델의 전면 구성 요소인 공간 인지 모듈이 공간적 특징을 추출하는 데 있어 학습이 부족하다는 점을 시사하고 있다. 본 논문에서는 먼저 실증적 연구를 수행하여, 얕은(Shallow) 시계열 집계 모듈을 사용할 경우 공간 인지 모듈의 보다 철저한 학습이 가능함을 입증한다. 그러나 얕은 시계열 집계 모듈은 수어에서의 국소적 및 전역적 시계열 정보를 효과적으로 포착하지 못한다는 한계가 있다. 이러한 모순을 해결하기 위해, 우리는 교차 시계열 컨텍스트 집계(Cross-Temporal Context Aggregation, CTCA) 모델을 제안한다. 구체적으로, 국소적 시계열 컨텍스트와 전역적 시계열 컨텍스트를 각각 인지하는 두 가지 경로를 갖는 이중 경로 네트워크를 설계하였다. 또한, 두 가지 유형의 컨텍스트와 언어적 사전 지식을 통합하기 위해 교차 컨텍스트 지식 증류(Knowledge Distillation) 학습 목표를 도입하였다. 이 지식 증류 기법을 통해 최종적으로 단일 경로로 구성된 시계열 집계 모듈이 국소-전역 시계열 및 의미적 컨텍스트를 동시에 인지할 수 있게 되었다. 이러한 얕은 시계열 인지 모듈 구조는 공간 인지 모듈의 학습을 촉진한다. 다양한 도전적인 CSLR 벤치마크에서 수행된 광범위한 실험을 통해, 본 방법이 기존의 모든 최첨단 기법을 초월함을 입증하였다.