
초록
지속적 수어 인식(CSLR)의 핵심 과제 중 하나는 영상 입력에서 시간에 걸쳐 장거리 공간적 상호작용을 효율적으로 포착하는 것이다. 이 문제를 해결하기 위해, 궤적과 관련 영역에서 공간-시간 정보를 효과적으로 모델링할 수 있는 하이브리드 네트워크인 TCNet을 제안한다. TCNet의 궤적 모듈은 프레임을 연속적인 시각 토큰으로 구성된 정렬된 궤적 형태로 변환한다. 또한, 쿼리 토큰에 대해 궤적을 따라 자체 주의(self-attention)를 학습함으로써, 특정 영역의 운동에서 세부적인 공간-시간 패턴(예: 손가락 움직임)에 집중할 수 있다. TCNet의 관련성 모듈은 새로운 동적 주의 메커니즘을 사용하여 관련 없는 프레임 영역을 필터링하며, 각 쿼리에 대해 관련 영역에서 동적 키-값 토큰을 할당한다. 이 두 가지 혁신은 계산 비용과 메모리 사용량을 크게 감소시킨다. 우리는 PHOENIX14, PHOENIX14-T, CSL, CSL-Daily 네 가지 대규모 데이터셋에서 실험을 수행하였으며, 실험 결과 TCNet이 일관되게 최상의 성능을 달성함을 입증하였다. 예를 들어, PHOENIX14과 PHOENIX14-T에서 이전 최고 성능 대비 각각 1.5%, 1.0%의 단어 오류율(WER) 개선을 기록하였다.