
현재 뼈대 기반 동작 인식에서 일반적으로 장기적인 시간적 종속성을 포착하는 데 주력하는 것은 뼈대 시퀀스가 보통 길기 때문에(128 프레임 이상) 발생하는 문제이며, 이는 기존 접근법에 있어 도전 과제가 되고 있다. 이러한 상황에서 단기적 종속성은 공식적으로 거의 고려되지 않으며, 이는 유사한 동작을 구분하는 데 핵심적인 요소이다. 대부분의 현재 접근법은 공간적 모듈과 시간적 모듈을 번갈아 사용하는 구조를 취하고 있으며, 인접 프레임 간 관절 간의 직접적인 정보 흐름이 방해받기 때문에 단기적 운동을 효과적으로 포착하거나 유사한 동작 쌍을 구분하는 데 한계가 있다. 이러한 제약을 해결하기 위해, 우리는 공간-시간 간 정보 흐름을 모델링할 수 있는 일반적인 프레임워크인 STGAT을 제안한다. STGAT은 공간적 모듈에 지역적 인지 능력을 위한 공간-시간 모델링 기능을 부여함으로써, 공간-시간 정보의 상호작용을 효과적으로 처리할 수 있도록 한다. STGAT은 이론적으로 공간-시간 모델링에 효과적이지만, 국소적인 공간-시간 특징의 중복을 줄이고 STGAT의 잠재력을 더욱 극대화하기 위해 세 가지 간단한 모듈을 제안한다. 각각은 (1) 자기주의(attention) 메커니즘의 적용 범위를 좁히는 것, (2) 시간 차원에 따라 관절을 동적으로 가중하는 것, 그리고 (3) 미세한 운동 특징을 정적 특징과 분리하는 것이다. 강력한 특징 추출기로서 STGAT은 기존 방법에 비해 유사한 동작을 분류하는 데 더 우수한 일반화 성능을 보이며, 정성적·정량적 결과를 통해 이를 입증할 수 있다. STGAT은 NTU RGB+D 60, NTU RGB+D 120, Kinetics Skeleton 400 세 가지 대규모 데이터셋에서 최신 기술(SOTA) 성능을 달성하였다. 코드는 공개되었다.