9일 전

스켈레톤 인지 다중 모달 서사 언어 인식

Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu
스켈레톤 인지 다중 모달 서사 언어 인식
초록

청각 장애 또는 언어 장애가 있는 사람들이 의사소통을 위해 흔히 사용하는 수어는 마스터하기 위해 상당한 노력을 요구한다. 수어 인식(Sign Language Recognition, SLR)은 주어진 영상에서 수어를 인식함으로써 수어 사용자와 그렇지 않은 사람들 간의 소통 격차를 해소하려는 목적으로 연구되고 있다. 이는 손짓, 몸의 자세, 심지어 얼굴 표정까지 빠르고 복잡한 움직임으로 이루어지는 수어의 특성상 필수적이지만 도전적인 과제이다. 최근, 주체와 배경의 변화에 독립적인 특성을 지닌 스텐실 기반 동작 인식이 점차 주목받고 있다. 그러나 손 관절 키포인트에 대한 레이블이 부족한 탓에 스텐실 기반 수어 인식은 여전히 탐색 단계에 있다. 일부 연구에서는 손 감지기와 자세 추정 모델을 활용해 손 키포인트를 추출하고, 신경망을 통해 수어 인식을 시도했지만, RGB 기반 방법들에 비해 성능이 떨어지고 있다. 이를 해결하기 위해 우리는 다중 모달 정보를 효과적으로 활용하여 인식 정확도를 향상시키는 새로운 스텐실 인식 기반 다중 모달 수어 인식 프레임워크(Skeleton Aware Multi-modal SLR, SAM-SLR)를 제안한다. 구체적으로, 수어의 내재된 동적 특성을 모델링하기 위해 수어 그래프 컨볼루션 네트워크(SL-GCN)를 제안하고, 스텐실 특징을 효율적으로 활용하기 위해 새로운 분리형 공간-시간 컨볼루션 네트워크(Separable Spatial-Temporal Convolution Network, SSTCN)를 설계하였다. 또한 RGB 및 깊이 모달을 프레임워크에 통합하여 스텐실 기반 모델(SL-GCN 및 SSTCN)과 보완적인 전역 정보를 제공한다. 그 결과, SAM-SLR는 2021년 Looking at People 대규모 비종속 고립형 수어 인식 챌린지에서 RGB(98.42%) 및 RGB-D(98.53%) 트랙 모두에서 최고 성능을 기록하였다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/jackyjsy/CVPR21Chal-SLR

스켈레톤 인지 다중 모달 서사 언어 인식 | 최신 연구 논문 | HyperAI초신경