16일 전

스켈레톤 기반 동작 인식을 위한 하이퍼그래프 트랜스포머

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper
스켈레톤 기반 동작 인식을 위한 하이퍼그래프 트랜스포머
초록

스켈레톤 기반 행동 인식은 인간의 관절 좌표와 그들의 스켈레톤 연결 구조를 기반으로 인간의 행동을 인식하는 것을 목표로 한다. 관절을 정점으로, 자연스러운 연결 관계를 간선으로 정의한 그래프를 구성함으로써, 기존 연구들은 그래프 컨볼루션 네트워크(GCNs)를 활용하여 관절의 동시 발생 패턴을 모델링하고 뛰어난 성능을 달성해왔다. 최근에는 GCN의 한계가 지적되며, 학습 이후 그래프의 구조(topology)가 고정되어 있다는 문제가 발견되었다. 이를 완화하기 위해, 입력에 따라 GCN의 구조를 적응적으로 조정할 수 있도록 자기주의(Self-Attention, SA) 메커니즘이 도입되어 최신의 하이브리드 모델이 등장하였다. 동시에 순수한 Transformer 모델을 활용한 시도도 이루어졌지만, 구조적 사전 지식(Structural prior)이 부족하여 여전히 GCN 기반 최첨단 방법에 미치지 못하고 있다. 하이브리드 모델과 달리, 본 연구에서는 그래프 거리 임베딩(Graph distance embedding)을 통해 뼈의 연결 구조를 Transformer에 보다 우아하게 통합하는 새로운 접근법을 제안한다. 본 임베딩은 학습 과정 전반에 걸쳐 스켈레톤 구조 정보를 유지하는 반면, GCN은 이를 단지 초기화에만 사용한다. 더욱 중요한 점은, 일반적인 그래프 모델에서 내재된 문제를 밝혀낸다는 것이다. 즉, 쌍별 집계(pairwise aggregation)는 신체 관절 간의 고차원 운동학적 종속성(high-order kinematic dependencies)를 본질적으로 무시한다는 점이다. 이러한 공백을 메우기 위해, 고차원 관계를 내재적으로 반영할 수 있도록 하이퍼그래프(Hypergraph) 기반의 새로운 자기주의 메커니즘인 하이퍼그래프 자기주의(Hypergraph Self-Attention, HyperSA)를 제안한다. 이를 기반으로 개발한 모델을 Hyperformer이라 명명하였으며, NTU RGB+D, NTU RGB+D 120, Northwestern-UCLA 데이터셋에서 정확도와 효율성 측면에서 최첨단 그래프 기반 모델을 모두 상회하는 성능을 보였다.