비디오에서 단어 수준의 심층 수어 인식: 새로운 대규모 데이터셋 및 방법 비교

시각 기반의 수어 인식 기술은 청각 장애인들이 다른 사람들과 소통할 수 있도록 돕는 것을 목표로 한다. 그러나 기존의 대부분의 수어 데이터셋은 매우 제한된 수의 단어로 구성되어 있다. 이러한 제한된 어휘량으로 인해, 해당 데이터셋으로 학습된 모델들은 실제 응용에 활용하기 어려운 실정이다. 본 논문에서는 100명 이상의 수어 사용자가 수행한 2,000개 이상의 단어를 포함하는 대규모의 단어 수준 미국 수어(WLASL: Word-Level American Sign Language) 영상 데이터셋을 소개한다. 이 데이터셋은 연구 공동체에 공개될 예정이며, 현재까지 공개된 미국 수어 데이터셋 중 가장 규모가 큰 것으로, 단어 수준의 수어 인식 연구를 촉진하는 데 기여할 것으로 기대된다.이 새로운 대규모 데이터셋을 기반으로, 우리는 단어 수준의 수어 인식을 위한 여러 가지 딥러닝 방법을 실험하고, 대규모 시나리오에서의 성능을 평가할 수 있게 되었다. 구체적으로, (i) 전반적인 시각적 외형 기반 접근법과 (ii) 2차원 인간 자세 기반 접근법이라는 두 가지 다른 모델을 구현하고 비교하였다. 이 두 모델은 향후 연구자들이 방법론을 비교할 수 있도록 유용한 기준 모델로 기여할 수 있다. 더불어, 인간 자세의 공간적 및 시간적 종속성을 동시에 모델링할 수 있는 새로운 자세 기반 시간적 그래프 컨볼루션 네트워크(Pose-TGCN)를 제안하였다. 이 모델은 자세 기반 접근법의 성능을 더욱 향상시켰다. 실험 결과, 자세 기반 및 외형 기반 모델 모두 2,000개의 단어/글로스에 대해 상위 10개 정답 중 하나로 예측할 때 최대 66%의 정확도를 달성하며, 유사한 성능을 보였다. 이는 제안한 데이터셋의 타당성과 함께, 여전히 도전적인 문제들을 제시하고 있음을 보여준다. 본 연구에서 제안하는 데이터셋과 기준 딥러닝 모델은 \url{https://dxli94.github.io/WLASL/}에서 공개되어 있다.