HyperAIHyperAI
vor 2 Monaten

Langsame und schnelle auditive Ströme für die Audioerkennung

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
Langsame und schnelle auditive Ströme für die Audioerkennung
Abstract

Wir schlagen ein Zweiströmnnetzwerk mit Faltungsoperationen für die Audioerkennung vor, das auf Zeit-Frequenz-Spektrogrammeingaben arbeitet. In Anlehnung an ähnliche Erfolge im Bereich der visuellen Erkennung lernen wir langsame und schnelle auditive Ströme mit trennbaren Faltungen und mehrstufigen lateralen Verbindungen. Der langsame Pfad verfügt über eine hohe Kanalkapazität, während der schnelle Pfad eine feingranulare zeitliche Auflösung aufweist. Wir demonstrieren die Bedeutung unseres Zweiströmvorschlags anhand von zwei verschiedenen Datensätzen: VGG-Sound und EPIC-KITCHENS-100 und erzielen bei beiden den aktuellen Stand der Technik (state-of-the-art results).