SepTr: Separable Transformer für die Audio-Spektrogramm-Verarbeitung

Nach dem erfolgreichen Einsatz von Vision-Transformern in verschiedenen Aufgaben der Computer Vision hat sich auch die Signalverarbeitungsgemeinschaft für diese Modelle interessiert. Dies liegt daran, dass Signale häufig als Spektrogramme dargestellt werden (z. B. mittels diskreter Fourier-Transformation), die direkt als Eingabe für Vision-Transformers verwendet werden können. Die naive Anwendung von Transformers auf Spektrogramme ist jedoch suboptimal. Da die Achsen unterschiedliche Dimensionen repräsentieren – nämlich Frequenz und Zeit – argumentieren wir, dass ein besserer Ansatz darin besteht, die Aufmerksamkeit für jede Achse getrennt zu behandeln. Dazu schlagen wir den Separable Transformer (SepTr) vor, eine Architektur, die zwei Transformer-Blöcke sequenziell einsetzt: Der erste Block konzentriert sich auf Token innerhalb desselben Zeitintervalls, der zweite auf Token innerhalb derselben Frequenzbin. Wir führen Experimente auf drei Benchmark-Datensätzen durch und zeigen, dass unsere separable Architektur herkömmliche Vision-Transformers sowie andere state-of-the-art-Methoden übertrifft. Im Gegensatz zu Standard-Transformern skaliert SepTr die Anzahl der trainierbaren Parameter linear mit der Eingabegröße und weist somit einen geringeren Speicherbedarf auf. Unser Quellcode ist als Open-Source unter https://github.com/ristea/septr verfügbar.