2달 전

계층적 윈도우 그래프 어텐션 네트워크와 고립된 인도 수화 인식을 위한 대규모 데이터셋

Patra, Suvajit ; Maitra, Arkadip ; Tiwari, Megha ; Kumaran, K. ; Prabhu, Swathy ; Punyeshwarananda, Swami ; Samanta, Soumitra
계층적 윈도우 그래프 어텐션 네트워크와 고립된 인도 수화 인식을 위한 대규모 데이터셋
초록

자동 수화(Sign Language, SL) 인식은 컴퓨터 비전 분야에서 중요한 과제입니다. 강력한 SL 인식 시스템을 구축하기 위해서는 많은 양의 데이터가 필요하지만, 특히 인도 수화(Indian Sign Language, ISL)에서는 이러한 데이터가 부족합니다. 본 논문에서는 대규모 단일 ISL 데이터셋과 뼈대 그래프 구조를 기반으로 하는 새로운 SL 인식 모델을 소개합니다. 이 데이터셋은 청각 장애인 커뮤니티에서 일상적으로 사용되는 2002개의 일반적인 단어를 20명(남성 10명, 여성 10명)의 성인 청각 장애인 수화자들이 기록한 것으로 구성되어 있으며, 총 40033개의 동영상이 포함되어 있습니다.우리는 인간 상체 뼈대 그래프를 활용하여 계층적 윈도우 그래프 어텐션 네트워크(Hierarchical Windowed Graph Attention Network, HWGAT)라는 SL 인식 모델을 제안합니다. HWGAT는 인간 뼈대 그래프에 의해 유발된 다양한 신체 부위에 주목함으로써 특징적인 움직임을 포착하려고 합니다. 제안된 데이터셋의 활용성과 우리의 모델의 유용성은 광범위한 실험을 통해 평가되었습니다.우리는 제안된 모델을 해당 데이터셋에서 사전 학습(pre-trained)하고 다른 수화 데이터셋들에서 미세 조정(fine-tuned)하여 성능을 향상시켰습니다. 이를 통해 기존 최신(keypoints-based) 모델들과 비교하여 INCLUDE, LSA64, AUTSL, WLASL 각각에서 1.10%, 0.46%, 0.78%, 6.84% 포인트씩 성능이 개선되었습니다.

계층적 윈도우 그래프 어텐션 네트워크와 고립된 인도 수화 인식을 위한 대규모 데이터셋 | 최신 연구 논문 | HyperAI초신경