3달 전

STEP CATFormer: 뼈대 기반 동작 인식을 위한 공간-시간 효과적 신체부위 교차 어텐션 트랜스포머

Nguyen Huu Bao Long
STEP CATFormer: 뼈대 기반 동작 인식을 위한 공간-시간 효과적 신체부위 교차 어텐션 트랜스포머
초록

그래프 컨볼루션 네트워크(GCNs)는 스켈레톤 기반 동작 인식 분야에서 널리 사용되며 뛰어난 성과를 거두고 있다. 우리는 스켈레톤 기반 동작 인식의 핵심이 프레임 내에서 매달려 있는 스켈레톤 구조에 있음을 인식하고, 그래프 컨볼루션 네트워크가 시간적 전역과 국소적 시간 영역에서 서로 다른 구조(topology)를 어떻게 학습하고 관절 특징을 효과적으로 집계하는지를 집중적으로 탐구하였다. 본 연구에서는 채널별 구조 정밀화 그래프 컨볼루션(CTR-GCN)을 기반으로 한 세 가지 채널별 구조 그래프 컨볼루션 기반 모델을 제안한다. CTR-GCN을 두 개의 관절 간 크로스 어텐션 모듈과 결합함으로써 상체-하체 및 손-발 간의 관계를 반영한 스켈레톤 특징을 효과적으로 추출할 수 있다. 또한, 프레임 간에 변화하는 인간 스켈레톤의 특징을 포착하기 위해 시간적 어텐션 트랜스포머(Temporal Attention Transformers)를 설계하였으며, 이는 인간 스켈레톤 시퀀스의 시간적 특징을 학습할 수 있다. 마지막으로, 시간적 특징 출력을 MLP를 통해 병합하고 분류 처리한다. 이를 통해 NTU RGB+D 및 NTU RGB+D 120 데이터셋에서 뛰어난 성능을 보이는 강력한 그래프 컨볼루션 네트워크인 공간-시간 효과적인 신체부위 크로스 어텐션 트랜스포머(Spatial Temporal Effective Body-part Cross Attention Transformer, STEP-CATFormer)를 개발하였다. 본 연구의 코드와 모델은 https://github.com/maclong01/STEP-CATFormer 에서 공개되어 있다.