2달 전
시계열 및 교차 모달 주의력 기반 오디오-비주얼 제로샷 학습
Mercea, Otniel-Bogdan ; Hummel, Thomas ; Koepke, A. Sophia ; Akata, Zeynep

초록
영상 분류를 위한 오디오-시각적 일반화 제로샷 학습은 테스트 시점에서 이전에 본 적 없는 새로운 클래스의 샘플을 인식하기 위해 오디오와 시각 정보 간의 관계를 이해하는 것이 필요합니다. 비디오 데이터 내의 오디오와 시각 데이터 사이의 자연스러운 의미론적 및 시간적 정렬은 테스트 시점에서 이전에 본 적 없는 클래스로 일반화할 수 있는 강력한 표현을 학습하는 데 활용될 수 있습니다. 우리는 오디오-시각적 일반화 제로샷 학습을 위해 다중 모달 및 시간 교차 주의 프레임워크(\modelName)를 제안합니다. 이 프레임워크의 입력은 사전 학습된 네트워크에서 얻어진 시간적으로 정렬된 오디오와 시각 특징입니다. 모달 내 자기 주의(self-attention) 대신 시간적으로 걸쳐 교차 모달 대응(cross-modal correspondence)에 초점을 맞추도록 프레임워크를 유도하면 성능이 크게 향상됩니다. 우리는 제안한 프레임워크가 시간 특징을 처리함으로써 \ucf, \vgg, 그리고 \activity 벤치마크에서 (일반화된) 제로샷 학습에 대해 최고 수준의 성능을 보여주며, 모든 결과를 재현하기 위한 코드는 \url{https://github.com/ExplainableML/TCAF-GZSL}에서 제공됩니다.