vor 2 Monaten
UAVM: Auf dem Weg zur Vereinigung von Audio- und Visuellen Modellen
Yuan Gong; Alexander H. Liu; Andrew Rouditchenko; James Glass

Abstract
Konventionelle audiovisuelle Modelle verfügen über unabhängige Audios- und Videozweige. In dieser Arbeit vereinen wir die Audios- und Videozweige durch das Entwerfen eines einheitlichen audiovisuellen Modells (UAVM). Das UAVM erreicht eine neue Top-Genauigkeit von 65,8 % bei der Klassifizierung audiovisueller Ereignisse auf VGGSound. Interessanterweise stellen wir außerdem einige faszinierende Eigenschaften des UAVM fest, die den modalspezifischen Gegenstücke fehlen.