2달 전

DVANet: 다중 시점 행동 인식을 위한 시점과 행동 특성 분리

Siddiqui, Nyle ; Tirupattur, Praveen ; Shah, Mubarak
DVANet: 다중 시점 행동 인식을 위한 시점과 행동 특성 분리
초록

본 연구에서는 다중 시점 행동 인식을 위한 새로운 접근 방식을 제시합니다. 이 방법은 학습된 행동 표현이 비디오에서 시점 관련 정보와 분리되도록 유도합니다. 여러 시점에서 촬영된 행동 인스턴스를 분류하려고 할 때, 배경의 차이, 가림 현상, 그리고 다른 카메라 각도에서의 행동 가시성 등의 문제로 인해 난이도가 높아집니다. 이러한 다중 시점 행동 인식에서 발생하는 다양한 문제를 해결하기 위해, 우리는 학습 가능한 트랜스포머 디코더 쿼리를 새롭게 구성하고, 두 개의 감독 대조 손실(supervised contrastive losses)을 결합하여 시점 변화에 견고한 행동 특징 학습을 강제하는 방법을 제안합니다. 우리의 분리된 특징 학습은 두 단계로 이루어집니다: 트랜스포머 디코더는 별도의 쿼리를 사용하여 행동 정보와 시점 정보를 각각 학습한 후, 우리의 두 개의 대조 손실을 통해 더욱 분리됩니다. 실험 결과, 본 모델과 훈련 방법은 NTU RGB+D, NTU RGB+D 120, PKU-MMD, N-UCLA 등 네 가지 다중 시점 행동 인식 데이터셋에서 모든 다른 단일 모달 모델보다 크게 우수함을 보였습니다. 기존 RGB 연구들과 비교할 때, 각 데이터셋에서 최대 1.5%, 4.8%, 2.2%, 4.8%의 성능 향상을 확인할 수 있었습니다.

DVANet: 다중 시점 행동 인식을 위한 시점과 행동 특성 분리 | 최신 연구 논문 | HyperAI초신경