9일 전

RGB 비디오에서 포즈 플로우와 자기 주의(Self-Attention)를 이용한 고립된 시그널 인식

{Joni Dambre, Mieke Van Herreweghe, Mathieu De Coster}
RGB 비디오에서 포즈 플로우와 자기 주의(Self-Attention)를 이용한 고립된 시그널 인식
초록

자동 수어 인식은 자연어 처리(NLP)와 컴퓨터 비전의 융합 분야에 위치한다. 다중 헤드 어텐션을 기반으로 한 매우 성공적인 트랜스포머 아키텍처는 원래 NLP 분야에서 개발되었다. 영상 트랜스포머 네트워크(VTN)는 행동 인식과 같은 영상 이해를 필요로 하는 작업에 이 개념을 적용한 것인데, 이는 영상 데이터를 처리하는 데 효과적이다. 그러나 자동 수어(언어) 인식 모델을 학습하기 위해 일반적으로 사용 가능한 레이블링된 데이터의 양이 제한적이기 때문에, VTN은 이 분야에서 그 잠재력을 충분히 발휘하지 못하고 있다. 본 연구에서는 수어 영상에서 자동으로 유용한 정보를 사전 추출함으로써 이러한 데이터 부족 문제의 영향을 줄인다. 제안하는 방법에서는 다중 모달(multi-modal) 환경에서 다양한 유형의 정보를 VTN에 제공한다. 이는 OpenPose를 이용해 추출한 프레임별 인체 자세 키포인트(신체 움직임을 포착)와 손 부분의 클롭(crop, 손 모양의 변화를 포착)를 포함한다. 최근 공개된 AUTSL 데이터셋을 이용해 고립된 수어 인식에 대한 실험을 수행한 결과, RGB 데이터만을 사용해 테스트 세트에서 92.92%의 정확도를 달성하였다. 비교를 위해, 손 클롭과 자세 흐름(pose flow)을 포함하지 않은 기존 VTN 아키텍처는 82%의 정확도를 기록하였다. 제안 모델의 질적 분석을 통해, 수어 인식 환경에서 다중 모달 다중 헤드 어텐션의 추가적 잠재력이 존재할 가능성이 시사된다.