9일 전

변형 가능한 3D 컨볼루션과 조절 가능한 그래프 컨볼루션 네트워크를 이용한 수어 인식

{Gerasimos Potamianos, Katerina Papadimitriou}
초록

자동 수어 인식(SLR)은 특히 RGB 영상만을 사용(깊이 정보나 특수 글러브 입력 없이)하고, 서커인디펜던트(SI, signer-independent) 프레임워크 하에서 개인 간 수어 변동성으로 인해 여전히 도전적인 과제로 남아 있다. 본 논문에서는 RGB 영상에서 SI 고립형 수어 인식을 다루며, 다중 모달 형태 정보와 뼈대 기반 정보를 활용하는 혁신적인 딥러닝 프레임워크를 제안한다. 구체적으로, 수어 인식 분야에서 처음으로 세 가지 구성 요소를 제안한다. (i) 수어의 시각적 특징 정보를 효과적으로 포착하기 위해 ResNet2+1D 네트워크의 개량된 버전을 도입하였으며, 공간적 및 시간적 합성곱(convolution)을 변형 가능한(deformable) 합성곱으로 대체함으로써 일반적인 공간 모델링 능력과 움직임 인식에 적응 가능한 모델링 능력을 동시에 달성하였다. (ii) 기존 인간의 해부학적 뼈대 구조를 초월하여 다양한 신체 관절 간 상관관계를 모델링하기 위해 가중치와 유사도 조절 기능을 포함한 GCN(Graph Convolutional Network) 변형 모델을 도입한 새로운 공간-시간 그래프 합성곱 네트워크(ST-GCN)를 제안하였으며, 이를 바탕으로 자기 주목(self-attention) 계층과 시간적 합성곱을 추가하였다. (iii) ST-GCN의 그래프 구조 생성에 사용될 3D 관절 회전 파라미터화를 생성하기 위해 ‘PIXIE’ 3D 인간 자세 및 형태 추정기(3D human pose and shape regressor)를 활용하였다. 제안된 시스템은 형태 기반과 뼈대 기반 두 가지 스트림을 통합하여, 터키어와 그리스어로 구성된 두 개의 고립형 수어 데이터셋에서 평가하였다. 두 번째 데이터셋에서는 최신 기술 대비 53%의 상대 오류율 감소(절대 오류율 2.45% 감소)를 기록하며 기존 최고 성능을 초월하였으며, 첫 번째 데이터셋에서는 기존 최고 성능 시스템과 동등한 성능을 보였다.