2달 전

일반화된 오디오-비주얼 영상의 제로샷 분류 및 검색을 위한 조정된 다중 모드 임베딩

Parida, Kranti Kumar ; Matiyali, Neeraj ; Guha, Tanaya ; Sharma, Gaurav
일반화된 오디오-비주얼 영상의 제로샷 분류 및 검색을 위한 조정된 다중 모드 임베딩
초록

우리는 비디오 분류 및 검색을 위한 제로샷 학습(ZSL) 작업에 대한 오디오-비주얼 다중모달 접근법을 제시합니다. 최근 ZSL은 많이 연구되었지만 주로 이미지에 국한된 시각 모달에만 집중되어 왔습니다. 우리는 비디오를 위한 ZSL에서 오디오와 시각 모달이 모두 중요한 역할을 한다는 것을 입증합니다. 이 작업을 연구하기 위한 데이터셋이 현재 존재하지 않기 때문에, 기존의 대규모 오디오 이벤트 데이터셋에서 33개 클래스와 156,416개의 비디오를 포함하는 적절한 다중모달 데이터셋도 구축하였습니다. 우리는 경험적으로 임베딩 학습 방법의 다중모달 확장을 사용하여 제로샷 분류와 검색 작업 모두에서 성능 향상이 오디오 모달 추가로 이루어짐을 보여줍니다. 또한, 공동으로 학습된 모달 어텐션 네트워크를 사용하여 '주도적' 모달을 예측하는 새로운 방법도 제안합니다. 우리는 반감독 학습 설정에서 어텐션을 학습하므로, 모달에 대한 추가적인 명시적인 라벨링이 필요하지 않습니다. 우리는 모달별 어텐션의 질적 유효성을 제공하며, 이는 미리 본 적 없는 테스트 클래스에도 성공적으로 일반화됩니다.

일반화된 오디오-비주얼 영상의 제로샷 분류 및 검색을 위한 조정된 다중 모드 임베딩 | 최신 연구 논문 | HyperAI초신경