16일 전

스페이셜 및 타임스탬프 트랜스포머 네트워크를 이용한 스켈레톤 기반 동작 인식

Chiara Plizzari, Marco Cannici, Matteo Matteucci
스페이셜 및 타임스탬프 트랜스포머 네트워크를 이용한 스켈레톤 기반 동작 인식
초록

최근 몇 년간 뼈대 기반 인간 활동 인식(Skeleton-based Human Activity Recognition)은 조명 변화, 신체 크기, 동적 카메라 시점, 복잡한 배경 등에 대해 강건함을 보이는 뼈대 데이터의 장점을 인정받으며 큰 관심을 끌고 있다. 특히 공간-시간 그래프 컨볼루션 네트워크(ST-GCN)는 비유클리드적 데이터인 뼈대 그래프에서 공간적 및 시간적 종속성을 효과적으로 학습할 수 있음이 입증되었다. 그러나 3차원 뼈대 데이터 내부에 숨겨진 잠재적 정보를 효과적으로 인코딩하는 것은 여전히 해결되지 않은 과제이며, 특히 관절의 운동 패턴과 그 상관관계로부터 유의미한 정보를 추출하는 데 있어 도전 과제가 있다. 본 연구에서는 트랜스포머의 자기주의(self-attention) 연산자를 활용하여 관절 간의 종속성을 모델링하는 새로운 공간-시간 트랜스포머 네트워크(ST-TR)를 제안한다. 제안한 ST-TR 모델에서는 프레임 내에서 다양한 신체 부위 간의 상호작용을 이해하기 위해 공간 자기주의 모듈(SSA)을, 프레임 간 상관관계를 모델링하기 위해 시간 자기주의 모듈(TSA)을 도입한다. 두 모듈은 이중 스트림 아키텍처로 통합되며, NTU-RGB+D 60, NTU-RGB+D 120, Kinetics Skeleton 400 세 가지 대규모 데이터셋에서 성능을 평가하였다. 실험 결과, 기존 백본 모델에 비해 일관되게 성능 향상을 보였다. 동일한 입력 데이터를 사용하는 기존 방법들과 비교했을 때, 관절 좌표를 입력으로 사용하는 경우 모든 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 뼈대 정보를 추가로 활용할 경우에도 최신 기술 수준과 비슷한 결과를 얻었다.