2달 전
AVGZSLNet: 다중 모달 임베딩에서 라벨 특성을 재구성하는 오디오-비주얼 일반화 제로샷 학습
Mazumder, Pratik ; Singh, Pravendra ; Parida, Kranti Kumar ; Namboodiri, Vinay P.

초록
본 논문에서는 훈련 과정에서 보지 못한 새로운 클래스의 오디오/비디오가 테스트 시에 등장하는 다중 모달 환경에서 일반화된 제로샷 학습을 위한 혁신적인 접근법을 제안합니다. 우리는 데이터 포인트의 오디오와 비디오 임베딩으로부터 클래스 라벨 텍스트 피처 공간을 정렬하여, 텍스트 임베딩의 의미적 관련성을 이용해 제로샷 학습을 수행합니다. 본 접근법은 크로스 모달 디코더와 복합 트리플릿 손실을 사용합니다. 크로스 모달 디코더는 데이터 포인트의 오디오와 비디오 임베딩으로부터 클래스 라벨 텍스트 피처를 재구성할 수 있는 제약 조건을 강제합니다. 이는 오디오와 비디오 임베딩이 클래스 라벨 텍스트 임베딩에 가까워지는 것을 돕습니다. 복합 트리플릿 손실은 오디오, 비디오, 텍스트 임베딩을 활용하며, 같은 클래스의 임베딩들을 서로 가깝게 만들고 다른 클래스의 임베딩들을 멀리 떨어뜨리는 역할을 합니다. 이는 다중 모달 환경에서 네트워크가 다중 모달 제로샷 학습 작업에서 더 우수한 성능을 발휘하도록 도와줍니다.특히, 본 연구의 다중 모달 제로샷 학습 접근법은 테스트 시에 특정 모달이 부족하더라도 작동합니다. 우리는 일반화된 제로샷 분류 및 검색 작업에서 본 접근법을 검증하였으며, 단일 모달뿐만 아니라 여러 모달이 존재하는 경우에도 다른 모델들보다 우수한 성능을 보임을 입증하였습니다. 또한, 다양한 아블레이션 실험과 이전 연구 방법들과의 비교를 통해 본 접근법의 유효성을 확인하였습니다.