SSAMBA: Selbstüberwachtes Audiodarstellungslernen mit dem Mamba Zustandsraummodell

Transformer haben das tiefe Lernen in verschiedenen Aufgaben, einschließlich der Audiodarstellungslernung, durch ihre leistungsstarke Modellierungsfähigkeiten revolutioniert. Allerdings leiden sie oft an quadratischer Komplexität sowohl im GPU-Speicherverbrauch als auch in der Rechenzeit für Inferenz, was ihre Effizienz beeinträchtigt. Kürzlich sind Zustandsraummodelle (SSMs) wie Mamba als vielversprechende Alternative hervorgetreten und bieten einen effizienteren Ansatz, indem sie diese Komplexitäten vermeiden. Angesichts dieser Vorteile untersuchen wir das Potenzial von SSM-basierten Modellen in Audionaufgaben. In dieser Arbeit stellen wir Self-Supervised Audio Mamba (SSAMBA) vor, das erste selbstüberwachte, aufmerksamkeitsfreie und SSM-basierte Modell für die Audiodarstellungslernung. SSAMBA nutzt das bidirektionale Mamba, um komplexe Audiomuster effektiv zu erfassen. Wir integrieren ein selbstüberwachtes Vortrainingsframework, das sowohl diskriminative als auch generative Ziele optimiert, wodurch das Modell robuste Audiodarstellungen aus großen, nicht gekennzeichneten Datensätzen lernen kann. Wir haben SSAMBA in verschiedenen Aufgaben wie Audiklassifikation, Schlüsselworterkennung und Sprecheridentifizierung evaluiert. Unsere Ergebnisse zeigen, dass SSAMBA in den meisten Aufgaben besser abschneidet als der Self-Supervised Audio Spectrogram Transformer (SSAST). Bemerkenswerterweise ist SSAMBA bei einer Eingabetokengröße von 22k und einer winzigen Modellgröße etwa 92,7 % schneller in der Batch-Inferenzgeschwindigkeit und 95,4 % speicher-effizienter als SSAST. Diese Effizienzgewinne zusammen mit der überlegenen Leistung unterstreichen die Effektivität der architektonischen Innovation von SSAMBA und machen es zu einer überzeugenden Wahl für eine Vielzahl von Audiobearbeitungsanwendungen.