HyperAIHyperAI

Command Palette

Search for a command to run...

SepTr: Separable Transformer für die Audio-Spektrogramm-Verarbeitung

Nicolae-Catalin Ristea Radu Tudor Ionescu Fahad Shahbaz Khan

Zusammenfassung

Nach dem erfolgreichen Einsatz von Vision-Transformern in verschiedenen Aufgaben der Computer Vision hat sich auch die Signalverarbeitungsgemeinschaft für diese Modelle interessiert. Dies liegt daran, dass Signale häufig als Spektrogramme dargestellt werden (z. B. mittels diskreter Fourier-Transformation), die direkt als Eingabe für Vision-Transformers verwendet werden können. Die naive Anwendung von Transformers auf Spektrogramme ist jedoch suboptimal. Da die Achsen unterschiedliche Dimensionen repräsentieren – nämlich Frequenz und Zeit – argumentieren wir, dass ein besserer Ansatz darin besteht, die Aufmerksamkeit für jede Achse getrennt zu behandeln. Dazu schlagen wir den Separable Transformer (SepTr) vor, eine Architektur, die zwei Transformer-Blöcke sequenziell einsetzt: Der erste Block konzentriert sich auf Token innerhalb desselben Zeitintervalls, der zweite auf Token innerhalb derselben Frequenzbin. Wir führen Experimente auf drei Benchmark-Datensätzen durch und zeigen, dass unsere separable Architektur herkömmliche Vision-Transformers sowie andere state-of-the-art-Methoden übertrifft. Im Gegensatz zu Standard-Transformern skaliert SepTr die Anzahl der trainierbaren Parameter linear mit der Eingabegröße und weist somit einen geringeren Speicherbedarf auf. Unser Quellcode ist als Open-Source unter https://github.com/ristea/septr verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp