vor 2 Monaten
Langsame und schnelle auditive Ströme für die Audioerkennung
Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima

Abstract
Wir schlagen ein Zweiströmnnetzwerk mit Faltungsoperationen für die Audioerkennung vor, das auf Zeit-Frequenz-Spektrogrammeingaben arbeitet. In Anlehnung an ähnliche Erfolge im Bereich der visuellen Erkennung lernen wir langsame und schnelle auditive Ströme mit trennbaren Faltungen und mehrstufigen lateralen Verbindungen. Der langsame Pfad verfügt über eine hohe Kanalkapazität, während der schnelle Pfad eine feingranulare zeitliche Auflösung aufweist. Wir demonstrieren die Bedeutung unseres Zweiströmvorschlags anhand von zwei verschiedenen Datensätzen: VGG-Sound und EPIC-KITCHENS-100 und erzielen bei beiden den aktuellen Stand der Technik (state-of-the-art results).