2달 전

다중 의미 융합 모델을 이용한 일반화된 제로샷 스켈레톤 기반 행동 인식

Li, Ming-Zhe ; Jia, Zhen ; Zhang, Zhang ; Ma, Zhanyu ; Wang, Liang
다중 의미 융합 모델을 이용한 일반화된 제로샷 스켈레톤 기반 행동 인식
초록

일반화된 제로샷 스켈레톤 기반 행동 인식(GZSSAR)은 컴퓨터 비전 분야에서 새로운 도전 과제로, 모델이 어떠한 훈련 샘플도 없이 행동을 인식해야 하는 문제입니다. 이전 연구에서는 동사 구문의 행동 라벨만을 의미 프로토타입으로 사용하여 스켈레톤 기반 행동과 공유 의미 공간 간의 매핑을 학습하는 데 활용하였습니다. 그러나 행동 라벨의 한정된 의미 정보는 미지의 행동을 인식하기 위한 일반화된 스켈레톤 특징의 일반화 능력을 제한합니다. 이러한 딜레마를 해결하기 위해, 우리는 GZSSAR의 성능을 개선하기 위한 다중 의미 융합(MSF) 모델을 제안합니다. 여기서 두 가지 클래스 수준의 텍스트 설명(즉, 행동 설명과 운동 설명)이 보조적 의미 정보로서 수집되어 일반화 가능한 스켈레톤 특징의 학습 효율성을 강화합니다. 특히, 사전 훈련된 언어 인코더는 행동 설명, 운동 설명 및 원래 클래스 라벨을 입력으로 받아 각 행동 클래스에 대한 풍부한 의미 특징을 얻습니다. 반면에 스켈레톤 인코더는 스켈레톤 특징을 추출하기 위해 구현됩니다. 그 다음, 변분 오토인코더(VAE) 기반 생성 모듈이 수행되어 스켈레톤 특징과 의미 특징 간의 크로스모달 정렬(cross-modal alignment)을 학습합니다. 마지막으로, 분류 모듈이 구축되어 입력 샘플의 행동 범주를 인식하는데, GZSSAR에서 샘플이 알려진 행동 클래스에서 나왔는지 여부를 예측하기 위해 알려진-미지 분류 게이트(seen-unseen classification gate)가 채택됩니다. 이전 모델들과 비교하여 우수한 성능은 제안된 MSF 모델이 GZSSAR에서 효과적임을 입증합니다.

다중 의미 융합 모델을 이용한 일반화된 제로샷 스켈레톤 기반 행동 인식 | 최신 연구 논문 | HyperAI초신경