
대부분의 딥러닝 기반 지속적 수어 인식(CSLR) 모델은 시각 모듈, 순차 모듈, 정렬 모듈로 구성된 유사한 백본을 공유하고 있다. 그러나 제한된 학습 샘플로 인해 연결주의적 시계열 분류(CTC) 손실은 이러한 CSLR 백본을 충분히 학습시키기 어렵다. 본 연구에서는 CSLR 백본의 성능을 향상시키기 위해 세 가지 보조 작업을 제안한다. 첫 번째 작업은 시각 모듈의 성능을 강화하는 것으로, 부족한 학습 데이터 문제에 민감한 시각 모듈에 일관성 관점에서 접근한다. 구체적으로, 수어의 정보는 주로 수어자들의 얼굴 표정과 손 움직임에 포함되므로, 키포인트 기반 공간 주의 모듈을 도입하여 시각 모듈이 정보가 풍부한 영역에 집중하도록 유도한다. 이를 통해 공간 주의 일관성(spatial attention consistency)을 강화한다. 두 번째로, 시각 모듈과 순차 모듈의 출력 특징이 동일한 문장을 표현한다는 점에 주목하여, 백본의 표현력을 극대화하기 위해 두 모듈 간에 문장 임베딩 일관성 제약을 도입한다. 세 번째로, 제안된 보조 작업을 적용하여 학습된 CSLR 모델을 일관성 강화형 CSLR(consistency-enhanced CSLR)라 명명하며, 이 모델은 모든 수어자가 학습 및 테스트 단계에서 모두 등장하는 수어자 의존적 데이터셋에서 우수한 성능을 발휘한다. 이를 수어자 독립적 설정에서 더 강건하게 만들기 위해, 특징 분리(feature disentanglement) 기반의 수어자 제거 모듈(signer removal module)을 추가로 제안하여 백본에서 수어자 정보를 제거한다. 다양한 아블레이션 연구를 통해 이러한 보조 작업의 효과를 검증하였다. 특히, 트랜스포머 기반 백본을 사용할 경우, PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL, CSL-Daily 등 다섯 가지 벤치마크에서 최신 기술(SOTA) 수준 또는 경쟁력 있는 성능을 달성하였다. 코드 및 모델은 https://github.com/2000ZRL/LCSA_C2SLR_SRM 에서 제공된다.