2달 전

음향-시각 일반화 제로샷 학습과 크로스모달 주의 및 언어

Mercea, Otniel-Bogdan ; Riesch, Lukas ; Koepke, A. Sophia ; Akata, Zeynep
음향-시각 일반화 제로샷 학습과 크로스모달 주의 및 언어
초록

훈련 데이터에 포함되지 않은 클래스의 비디오 데이터를 분류하는 것, 즉 비디오 기반 제로샷 학습은 도전적이다. 우리는 비디오 데이터에서 오디오와 시각 모달 간의 자연스러운 정렬이 차별적인 다중 모달 표현을 학습하기 위한 풍부한 훈련 신호를 제공한다고 추측한다. 상대적으로 연구가 덜 이루어진 오디오-시각 제로샷 학습 과제에 초점을 맞추어, 우리는 크로스 모달 어텐션을 사용하여 오디오-시각 데이터에서 다중 모달 표현을 학습하고, 텍스트 라벨 임베딩을 활용하여 관찰된 클래스에서 관찰되지 않은 클래스로 지식을 전송하는 방법을 제안한다.이를 한 단계 더 발전시키기 위해, 일반화된 오디오-시각 제로샷 학습 환경에서 우리는 모든 훈련 클래스를 테스트 시간 검색 공간에 포함시킨다. 이는 방해 요소 역할을 하며 난이도를 증가시키지만, 환경을 더욱 현실적으로 만든다. 이 영역에서 통합된 벤치마크가 부족한 점을 고려하여, VGGSound, UCF, 그리고 ActivityNet이라는 세 가지 크기와 난이도가 다른 오디오-시각 데이터셋에서 (일반화된) 제로샷 학습 벤치마크를 소개한다. 이를 통해 관찰되지 않은 테스트 클래스가 백본 딥 모델의 감독 훈련에 사용되는 데이터셋에 나타나지 않도록 보장한다.여러 관련 최근 방법들을 비교한 결과, 우리가 제안한 AVCA 모델이 세 가지 데이터셋 모두에서 최신 수준의 성능을 달성함을 입증하였다. 코드와 데이터는 \url{https://github.com/ExplainableML/AVCA-GZSL}에서 이용 가능하다.

음향-시각 일반화 제로샷 학습과 크로스모달 주의 및 언어 | 최신 연구 논문 | HyperAI초신경