HyperAIHyperAI

Command Palette

Search for a command to run...

SSAMBA: Selbstüberwachtes Audiodarstellungslernen mit dem Mamba Zustandsraummodell

Siavash Shams Sukru Samet Dindar Xilin Jiang Nima Mesgarani

Zusammenfassung

Transformer haben das tiefe Lernen in verschiedenen Aufgaben, einschließlich der Audiodarstellungslernung, durch ihre leistungsstarke Modellierungsfähigkeiten revolutioniert. Allerdings leiden sie oft an quadratischer Komplexität sowohl im GPU-Speicherverbrauch als auch in der Rechenzeit für Inferenz, was ihre Effizienz beeinträchtigt. Kürzlich sind Zustandsraummodelle (SSMs) wie Mamba als vielversprechende Alternative hervorgetreten und bieten einen effizienteren Ansatz, indem sie diese Komplexitäten vermeiden. Angesichts dieser Vorteile untersuchen wir das Potenzial von SSM-basierten Modellen in Audionaufgaben. In dieser Arbeit stellen wir Self-Supervised Audio Mamba (SSAMBA) vor, das erste selbstüberwachte, aufmerksamkeitsfreie und SSM-basierte Modell für die Audiodarstellungslernung. SSAMBA nutzt das bidirektionale Mamba, um komplexe Audiomuster effektiv zu erfassen. Wir integrieren ein selbstüberwachtes Vortrainingsframework, das sowohl diskriminative als auch generative Ziele optimiert, wodurch das Modell robuste Audiodarstellungen aus großen, nicht gekennzeichneten Datensätzen lernen kann. Wir haben SSAMBA in verschiedenen Aufgaben wie Audiklassifikation, Schlüsselworterkennung und Sprecheridentifizierung evaluiert. Unsere Ergebnisse zeigen, dass SSAMBA in den meisten Aufgaben besser abschneidet als der Self-Supervised Audio Spectrogram Transformer (SSAST). Bemerkenswerterweise ist SSAMBA bei einer Eingabetokengröße von 22k und einer winzigen Modellgröße etwa 92,7 % schneller in der Batch-Inferenzgeschwindigkeit und 95,4 % speicher-effizienter als SSAST. Diese Effizienzgewinne zusammen mit der überlegenen Leistung unterstreichen die Effektivität der architektonischen Innovation von SSAMBA und machen es zu einer überzeugenden Wahl für eine Vielzahl von Audiobearbeitungsanwendungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp