
초록
본 논문은 지속적 수어 인식(Continuous Sign Language Recognition) 작업을 위한 주의 기반 네트워크를 제안한다. 제안된 방법은 수어 모달리티를 모델링하기 위해 상호 독립적인 데이터 스트림을 활용한다. 이러한 다양한 정보 채널들은 서로 간에 복잡한 시간적 구조를 공유할 수 있다. 이에 따라, 다양한 수어 구성 요소 간의 얽힌 의존 관계를 효과적으로 포착하고 동기화하기 위해 주의 메커니즘(attention mechanism)을 적용한다. 비록 수어는 다중 채널 정보를 포함하지만, 손 모양(handshapes)은 수어 해석에서 중심적인 요소이다. 손 모양이 올바른 맥락 속에서 인식되는 것이 서사의 의미를 결정짓는다. 이러한 점을 고려하여, 주의 메커니즘을 활용해 손 특징을 적절한 시공간적 맥락과 효율적으로 통합함으로써 더 나은 수어 인식 성능을 달성한다. 실험 결과, 본 모델은 주로 주 손과 얼굴 영역을 중심으로 구성된 핵심 수어 요소들을 효과적으로 식별함을 확인하였다. 제안된 모델은 표준 벤치마크 데이터셋인 RWTH-PHOENIX-Weather 2014에서 검증되었으며, 경쟁력 있는 성능을 보였다.