SL-DML: 다중 모드 원샷 행동 인식을 위한 신호 수준 딥 메트릭 학습

단일 참조 샘플을 사용하여 메트릭 학습 접근법으로 활동을 인식하는 것은 유망한 연구 분야입니다. 대부분의 소수 샘플 방법은 객체 인식이나 얼굴 식별에 초점을 맞추고 있습니다. 우리는 임베딩 공간에서 가장 가까운 이웃 검색 문제로 행동 인식 문제를 축소시키는 메트릭 학습 접근법을 제안합니다. 신호를 이미지로 인코딩하고 깊은 잔여 CNN을 사용하여 특징을 추출합니다. 트리플렛 손실을 사용하여 특징 임베딩을 학습합니다. 결과적으로 얻어진 인코더는 유사한 행동은 더 가까운 거리로, 다른 행동은 더 먼 거리로 표현되는 임베딩 공간으로 특징을 변환합니다. 우리의 접근법은 신호 수준의 공식화에 기반하며 다양한 모달 간에 유연성을 유지합니다. 또한, 대규모 NTU RGB+D 120 데이터셋에서 원샷(One-Shot) 행동 인식 프로토콜에 대해 기존 베이스라인보다 5.6% 높은 성능을 보였습니다. 훈련 데이터의 60%만 사용해도 우리의 접근법은 기존 베이스라인 접근법보다 3.7% 높은 성능을 보였습니다. 훈련 데이터의 40%만 사용해도 우리의 접근법은 두 번째 후속 연구와 비교할 만큼 좋은 성능을 보였습니다. 또한, UTD-MHAD 데이터셋에서 관성, 스켈레톤 및 융합 데이터와 Simitate 데이터셋에서 모션 캡처링 데이터에 대한 실험에서 우리의 접근법이 잘 일반화됨을 보여주었습니다. 더욱이, 우리 연구에서는 관절 간(inter-joint) 및 센서 간(inter-sensor) 실험이 새로운 설정에서도 좋은 능력을 갖음을 시사하였습니다.