HyperAIHyperAI
vor 15 Tagen

Play It Back: Iterative Attention für die Audioerkennung

Alexandros Stergiou, Dima Damen
Play It Back: Iterative Attention für die Audioerkennung
Abstract

Eine zentrale Funktion der auditiven Kognition besteht darin, charakteristische Geräusche im Laufe der Zeit mit ihren entsprechenden Semantiken zu verknüpfen. Menschen, die fein abgestufte Audio-Kategorien unterscheiden müssen, wiederholen häufig dieselben diskriminativen Geräusche, um ihre Vorhersagezuverlässigkeit zu erhöhen. Wir schlagen eine end-to-end-Architektur auf Basis von Aufmerksamkeit vor, die durch selektive Wiederholung die am stärksten diskriminativen Geräusche innerhalb der Audio-Sequenz gezielt berücksichtigt. Unser Modell nutzt zunächst die gesamte Audio-Sequenz und verfeinert iterativ die zeitlichen Segmente, die wiederholt werden, basierend auf Slot-Attention. Bei jeder Wiedergabe werden die ausgewählten Segmente mit einer kleineren Sprungweite (hop length) wiedergegeben, was eine höhere Auflösung der Merkmale innerhalb dieser Segmente ermöglicht. Wir zeigen, dass unsere Methode konsistent state-of-the-art-Leistungen auf drei Audio-Klassifizierungsbenchmarks erzielt: AudioSet, VGG-Sound und EPIC-KITCHENS-100.

Play It Back: Iterative Attention für die Audioerkennung | Neueste Forschungsarbeiten | HyperAI