2달 전

Skeleton-DML: 골격 기반 원샷 동작 인식을 위한 딥 메트릭 학습

Memmesheimer, Raphael ; Häring, Simon ; Theisen, Nick ; Paulus, Dietrich
Skeleton-DML: 골격 기반 원샷 동작 인식을 위한 딥 메트릭 학습
초록

원샷 액션 인식(one-shot action recognition)은 단 하나의 훈련 예제만으로도 인간이 수행하는 행동을 인식할 수 있는 기술입니다. 이 기술은 로봇이 이전에 본 적 없는 행동에 반응할 수 있게 함으로써 인간-로봇 상호작용(human-robot interaction)을 긍정적으로 영향을 미칠 수 있습니다. 우리는 원샷 액션 인식 문제를 딥 메트릭 학습(deep metric learning) 문제로 정식화하고, 메트릭 학습 환경에서 우수한 성능을 보이는 새로운 이미지 기반 스켈레톤 표현(image-based skeleton representation)을 제안합니다. 이를 위해, 모델을 훈련시켜 이미지 표현들을 임베딩 공간(embedding space)으로 사영(projection)하도록 합니다. 임베딩 공간에서는 유사한 행동들이 낮은 유클리드 거리를 가지며, 비슷하지 않은 행동들은 더 높은 거리를 갖습니다. 원샷 액션 인식 문제는 활동 참조 샘플들의 집합에서 가장 가까운 이웃을 찾는 문제로 변환됩니다. 우리는 제안된 표현이 다양한 다른 스켈레톤 기반 이미지 표현들에 비해 어떻게 성능이 나타나는지를 평가하였습니다. 또한, 서로 다른 임베딩 벡터 크기(embedding vector sizes), 손실(losses), 증강(augmentation) 방법들의 영향력을 보여주는 아블레이션 연구(ablation study)를 제시하였습니다. 우리의 접근법은 NTU RGB+D 120 데이터셋에서 유사한 훈련 설정(comparable training setup) 하에 원샷 액션 인식 프로토콜(one-shot action recognition protocol)에 대해 최신 기술(state-of-the-art)보다 3.3% 개선되었습니다. 추가적인 증강 방법을 사용함으로써 결과는 7.7% 이상 개선되었습니다.