2달 전

Hyperbolic Audio-visual Zero-shot Learning 하이퍼볼릭 오디오-비주얼 제로샷 학습

Hong, Jie ; Hayder, Zeeshan ; Han, Junlin ; Fang, Pengfei ; Harandi, Mehrtash ; Petersson, Lars
Hyperbolic Audio-visual Zero-shot Learning
하이퍼볼릭 오디오-비주얼 제로샷 학습
초록

오디오-비주얼 제로샷 학습은 훈련 과정에서 나타나지 않은 클래스의 오디오와 비디오 시퀀스 쌍으로 구성된 샘플을 분류하는 것을 목표로 합니다. 오디오-비주얼 데이터의 분석 결과, 이 데이터가 큰 정도의 쌍곡성을 보이는 것으로 밝혀졌습니다. 이는 이 작업을 위해 더 복잡한 계층적 데이터 구조를 탐색하기 위해 쌍곡 변환을 사용하여 곡률 인식 기하학적 학습을 달성할 수 있는 잠재적인 이점을 시사합니다. 제안된 접근 방식은 쌍곡 공간에서 비디오와 오디오 특성 간의 크로스 모달 정렬을 통합하는 새로운 손실 함수를 사용합니다. 또한, 우리는 여러 개의 적응형 곡률을 사용하여 쌍곡 투영을 수행하는 방법을 탐구하였습니다.실험 결과는 이 매우 어려운 작업에서 제안된 쌍곡 제로샷 학습 접근 방식이 세 가지 데이터셋(VGGSound-GZSL, UCF-GZSL, ActivityNet-GZSL)에서 기존 최고 성능(SOTA) 방법보다 우수함을 입증하였습니다. 각각의 조화 평균(HM) 개선율은 약 3.0%, 7.0%, 그리고 5.3%입니다.

Hyperbolic Audio-visual Zero-shot Learning 하이퍼볼릭 오디오-비주얼 제로샷 학습 | 최신 연구 논문 | HyperAI초신경