16일 전

스켈레톤 기반 동작 인식을 위한 공동 혼합 데이터 증강

{Zengfu Wang, Linhua Xiang}
초록

스켈레톤 기반 동작 인식은 비디오 속 인간 행동을 이해하는 데 유용하며, 최근 들어 동작 인식 분야에서 중요한 연구 주제로 주목받고 있다. 현재의 연구는 스켈레톤 데이터로부터 보다 효과적으로 공간-시계열 정보를 추출할 수 있는 고도화된 알고리즘 설계에 집중하고 있다. 그러나 기존 스켈레톤 데이터셋의 데이터 양이 적고, 효과적인 데이터 증강 방법이 부족함으로 인해 모델 학습 과정에서 과적합(overfitting)이 쉽게 발생하는 문제가 있다. 이 문제를 해결하기 위해, 다양한 스켈레톤 기반 동작 인식 알고리즘의 효과성과 견고성을 일반적으로 향상시킬 수 있는 믹스 기반 데이터 증강 방법인 Joint Mixing Data Augmentation (JMDA)를 제안한다.공간 정보 측면에서는, 기존 3D 스켈레톤의 이산적 정보를 2D 공간으로 투영하는 SpatialMix (SM) 기법을 도입한다. 이후 학습 과정에서 두 개의 무작위 샘플 간에 투영된 공간 정보를 혼합하여 공간 기반의 데이터 증강을 실현한다. 시계열 정보 측면에서는, 스켈레톤 데이터의 시계열 연속성을 활용하여 원본 스켈레톤 데이터에 시간 축 리사이즈(time-resize) 연산을 적용하고, 학습 중 두 샘플을 병합함으로써 시계열 기반의 혼합 데이터 증강을 달성하는 TemporalMix (TM)을 제안한다.또한, 스켈레톤 데이터에 믹스 기반 데이터 증강을 도입함에 따라 발생할 수 있는 특성 불일치(Feature Mismatch, FM) 문제를 분석하고, 이를 효과적으로 해결하기 위한 새로운 데이터 전처리 방법인 Feature Alignment (FA)를 제안한다. 이는 모델 성능을 향상시키는 데 기여한다. 더불어, 다수의 믹스 기반 데이터 증강 방법을 통합하여 모델 성능을 추가로 개선할 수 있는 새로운 학습 파이프라인인 Joint Training Strategy (JTS)를 제안한다. 특히 본 연구에서 제안하는 JMDA는 플러그 앤 플레이(Plug-and-Play) 형식으로 구현 가능하며, 스켈레톤 기반 동작 인식 모델에 널리 적용 가능하다. 또한 JMDA의 적용은 모델 파라미터 수를 증가시키지 않으며, 추가적인 학습 비용도 거의 발생하지 않는다.NTU RGB+D 60 및 NTU RGB+D 120 데이터셋을 대상으로 광범위한 실험을 수행하여, 제안하는 JMDA가 여러 주류 스켈레톤 기반 동작 인식 알고리즘에 대해 효과적이고 견고함을 입증하였다.

스켈레톤 기반 동작 인식을 위한 공동 혼합 데이터 증강 | 최신 연구 논문 | HyperAI초신경