9일 전
로컬 영역과 골격 정보에 중점을 둔 다중 스트림 신경망을 활용한 단어 수준의 시각언어 인식
Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka

초록
단어 수준의 수어 인식(Word-level Sign Language Recognition, WSLR)은 언어 장애를 가진 사람과 청각이 정상인 사람 간의 의사소통 장벽을 극복할 수 있다는 기대감으로 주목받고 있다. WSLR 문제에서 행동 인식을 위한 기법이 최고의 정확도를 달성하고 있다. 실제로 수어가 행동으로 간주되므로 행동 인식 기법이 WSLR에서 우수한 성능을 발휘하는 것은 타당해 보인다. 그러나 두 작업을 철저히 비교해 보면, 행동 인식과 WSLR는 본질적으로 다른 작업임을 알 수 있다. 따라서 본 논문에서는 WSLR 문제에 특히 유용한 정보를 고려한 새로운 WSLR 방법을 제안한다. 우리는 이를 다중 스트림 신경망(Multi-stream Neural Network, MSNN)으로 구현하였으며, 세 가지 스트림으로 구성된다: 1) 기준 스트림, 2) 국소 이미지 스트림, 3) 스켈레톤 스트림. 각 스트림은 서로 다른 유형의 정보를 처리하도록 설계되었다. 기준 스트림은 손과 신체의 빠르고 세밀한 움직임을 다루며, 국소 이미지 스트림은 손 모양과 얼굴 표정에 초점을 맞추고, 스켈레톤 스트림은 신체와 양손 간의 상대적 위치를 포착한다. 이러한 접근 방식을 통해 다양한 유형의 데이터를 통합함으로써 보다 포괄적인 제스처 분석이 가능해진다. WLASL 및 MS-ASL 데이터셋에서의 실험 결과는 제안된 방법의 효과성을 입증하며, 기존 방법 대비 상위 1위 정확도에서 약 10%~15%의 성능 향상을 달성하였다.