Command Palette
Search for a command to run...
Langsame und schnelle auditive Ströme für die Audioerkennung
Langsame und schnelle auditive Ströme für die Audioerkennung
Evangelos Kazakos Arsha Nagrani Andrew Zisserman Dima Damen
Zusammenfassung
Wir schlagen ein Zweiströmnnetzwerk mit Faltungsoperationen für die Audioerkennung vor, das auf Zeit-Frequenz-Spektrogrammeingaben arbeitet. In Anlehnung an ähnliche Erfolge im Bereich der visuellen Erkennung lernen wir langsame und schnelle auditive Ströme mit trennbaren Faltungen und mehrstufigen lateralen Verbindungen. Der langsame Pfad verfügt über eine hohe Kanalkapazität, während der schnelle Pfad eine feingranulare zeitliche Auflösung aufweist. Wir demonstrieren die Bedeutung unseres Zweiströmvorschlags anhand von zwei verschiedenen Datensätzen: VGG-Sound und EPIC-KITCHENS-100 und erzielen bei beiden den aktuellen Stand der Technik (state-of-the-art results).