9일 전

C2SLR: 일관성 강화형 지속적 수어 인식

{Brian Mak, Ronglai Zuo}
C2SLR: 일관성 강화형 지속적 수어 인식
초록

대부분의 지속적 수어 인식(Continuous Sign Language Recognition, CSLR) 모델의 핵심 구조는 시각 모듈, 순차 모듈, 그리고 정렬 모듈로 구성된다. 그러나 이러한 CSLR 백본 구조는 단일한 연결형 시간 분류(Connected Temporal Classification, CTC) 손실 함수만으로는 충분히 학습되기 어렵다. 본 연구에서는 일관성 관점에서 CSLR 백본의 성능을 향상시키기 위해 두 가지 보조 제약 조건을 제안한다. 첫 번째 제약은 시각 모듈의 성능을 강화하는 데 초점을 맞추며, 이 모듈은 학습이 부족하기 쉬운 문제를 겪는다. 구체적으로 수어는 주로 수어자를 나타내는 얼굴과 손의 움직임을 통해 정보를 전달하므로, 시각 모듈 내에 관건점 기반 공간 주의 모듈을 삽입하여 중요한 영역에 주의를 집중시키도록 유도한다. 이를 통해 공간 주의 일관성(spatial attention consistency)을 확보한다. 그러나 시각 모듈만 강화하는 것은 백본의 전체적인 잠재력을 충분히 발휘하지 못할 수 있다. 시각 모듈과 순차 모듈의 출력 특징이 동일한 문장을 표현한다는 점에 착안하여, 두 모듈 간에 문장 임베딩 일관성(sentence embedding consistency) 제약을 추가함으로써 특징 표현 능력을 더욱 강화한다. 세 가지 대표적인 백본에 대한 실험 결과를 통해 제안된 두 가지 제약 조건의 효과를 검증하였다. 특히 트랜스포머 기반 백본을 사용한 경우, PHOENIX-2014, PHOENIX-2014-T, CSL 세 가지 벤치마크에서 최신 기술(SOTA) 수준 또는 경쟁 가능한 성능을 달성하였다.