HyperAIHyperAI

Command Palette

Search for a command to run...

Play It Back: Iterative Attention für die Audioerkennung

Alexandros Stergiou Dima Damen

Zusammenfassung

Eine zentrale Funktion der auditiven Kognition besteht darin, charakteristische Geräusche im Laufe der Zeit mit ihren entsprechenden Semantiken zu verknüpfen. Menschen, die fein abgestufte Audio-Kategorien unterscheiden müssen, wiederholen häufig dieselben diskriminativen Geräusche, um ihre Vorhersagezuverlässigkeit zu erhöhen. Wir schlagen eine end-to-end-Architektur auf Basis von Aufmerksamkeit vor, die durch selektive Wiederholung die am stärksten diskriminativen Geräusche innerhalb der Audio-Sequenz gezielt berücksichtigt. Unser Modell nutzt zunächst die gesamte Audio-Sequenz und verfeinert iterativ die zeitlichen Segmente, die wiederholt werden, basierend auf Slot-Attention. Bei jeder Wiedergabe werden die ausgewählten Segmente mit einer kleineren Sprungweite (hop length) wiedergegeben, was eine höhere Auflösung der Merkmale innerhalb dieser Segmente ermöglicht. Wir zeigen, dass unsere Methode konsistent state-of-the-art-Leistungen auf drei Audio-Klassifizierungsbenchmarks erzielt: AudioSet, VGG-Sound und EPIC-KITCHENS-100.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp