TSGCNeXt: 효율적인 뼈대 기반 동작 인식을 위한 동적-정적 다중 그래프 컨볼루션과 장기 학습 가능성을 갖춘 모델

스켈레톤 기반 행동 인식은 그래프 컨볼루션 네트워크(GCNs)의 발전과 함께 인간 행동 인식 분야에서 뛰어난 성과를 거두고 있다. 그러나 최근 연구들은 복잡한 학습 메커니즘을 구축하며 중복된 학습을 유발하고, 장시간 시계열 데이터 처리에 있어 오랫동안 지속되는 성능 한계를 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 장시간 시계열 스켈레톤 시퀀스에 대한 효율적인 학습 메커니즘을 탐색하기 위한 시간-공간 그래프 컨브넥스트(TSGCNeXt)를 제안한다. 먼저, 단순한 구조를 가진 새로운 그래프 학습 메커니즘인 동적-정적 분리 다중 그래프 컨볼루션(DS-SMG)을 제안하여 여러 독립적인 위상 구조 그래프의 특징을 효율적으로 통합하고, 동적 컨볼루션 과정에서 노드 정보가 무시되는 문제를 방지한다. 다음으로, 동적 그래프 학습의 역전파 계산을 최적화하기 위한 그래프 컨볼루션 학습 가속 메커니즘을 구축하여, 학습 속도를 55.08% 향상시켰다. 마지막으로, TSGCNeXt는 GCN의 전체 구조를 세 개의 공간-시간 학습 모듈로 재구성함으로써, 장시간 시계열 특징을 효과적으로 모델링한다. 대규모 데이터셋 NTU RGB+D 60 및 120에서 기존의 단일 스트림 기반 기법들과 비교했을 때, TSGCNeXt는 우수한 성능을 보이며 기존 방법들을 초월한다. 더불어, 다중 스트림 융합에 EMA 모델을 도입함으로써, TSGCNeXt는 최신 기준(SOTA) 수준에 도달한다. NTU 120의 크로스 서브젝트 및 크로스 세트 설정에서 정확도는 각각 90.22%와 91.74%에 달한다.