9일 전

StepNet: 고립된 수어 인식을 위한 공간-시간 부분 인지 네트워크

Xiaolong Shen, Zhedong Zheng, Yi Yang
StepNet: 고립된 수어 인식을 위한 공간-시간 부분 인지 네트워크
초록

청각장애인 또는 난청을 가진 사람들과의 소통 장벽을 극복하는 데 목적이 있는 수어 인식(Sign Language Recognition, SLR) 기술은 중요한 사회적 가치를 지닌다. 기존의 대부분의 접근법은 일반적으로 두 가지 주요 방향으로 나뉜다. 하나는 골격 기반(Skeleton-based) 방법이고, 다른 하나는 RGB 기반(RGB-based) 방법이다. 그러나 두 방식 모두 각각의 한계를 가지고 있다. 골격 기반 방법은 얼굴 표정 정보를 고려하지 않으며, RGB 기반 방법은 손의 세부적인 구조 정보를 무시하는 경향이 있다. 이러한 한계를 동시에 극복하기 위해, 본 연구에서는 RGB 기반의 부분 정보를 활용한 새로운 프레임워크인 공간-시간 부분 인지 네트워크(Spatial-temporal Part-aware network, StepNet)를 제안한다. 이름에서 알 수 있듯이, 이 네트워크는 두 가지 모듈로 구성된다. 즉, 부분 수준의 공간 모델링(Part-level Spatial Modeling)과 부분 수준의 시간 모델링(Part-level Temporal Modeling)이다. 특히 부분 수준의 공간 모델링은 키포인트 수준의 레이블 정보를 사용하지 않고도 특징 공간에서 손, 얼굴과 같은 시각적 특성(예: 외형적 특징)을 자동으로 탐지한다. 반면, 부분 수준의 시간 모델링은 장단기적 문맥을 암묵적으로 탐색함으로써 시간에 따라 변화하는 관련 특성을 효과적으로 포착한다. 광범위한 실험 결과를 통해 StepNet이 공간-시간 모듈의 효과로 인해, 일반적으로 사용되는 세 가지 수어 인식 기준 데이터셋(즉, WLASL, NMFs-CSL, BOBSL)에서 경쟁력 있는 성능을 달성함을 입증하였다. 구체적으로, WLASL에서는 56.89%, NMFs-CSL에서는 77.2%, BOBSL에서는 77.1%의 Top-1 Per-instance 정확도를 기록하였다. 또한 제안된 방법은 광학 흐름(optical flow) 입력과도 호환되며, 이를 융합하면 더욱 뛰어난 성능을 발휘할 수 있다. 난청을 가진 사람들에게 이 연구가 초기 단계의 기여가 되기를 바란다.

StepNet: 고립된 수어 인식을 위한 공간-시간 부분 인지 네트워크 | 최신 연구 논문 | HyperAI초신경