HyperAIHyperAI
vor 17 Tagen

Audio Transformers

Verma, Prateek, Berger, Jonathan
Audio Transformers
Abstract

In den vergangenen zwei Jahrzehnten haben CNN-Architekturen überzeugende Modelle der Klangwahrnehmung und -kognition hervorgebracht, die hierarchische Merkmalsorganisationen lernen. Ähnlich wie in der Computer Vision kann die Klassifikation akustischer Merkmale für eine bestimmte Aufgabe über eine Vielzahl unterschiedlicher Datensätze und Labels optimiert werden. Tatsächlich haben ähnliche Architekturen, die für die Bildverstehens entwickelt wurden, sich auch für die Analyse akustischer Szenen als wirksam erwiesen. In diesem Beitrag schlagen wir vor, Transformer-basierte Architekturen ohne konvolutionale Schichten direkt auf rohe Audio-Signale anzuwenden. Auf einem Standard-Datensatz aus Free Sound 50K mit 200 Kategorien übertrifft unser Modell konvolutionale Modelle und erreicht dabei Ergebnisse auf dem Stand der Technik. Dies ist bedeutend, da wir im Gegensatz zu Ansätzen in der natürlichen Sprachverarbeitung und der Computer Vision keine unsupervised Pre-Training durchführen, um konvolutionale Architekturen zu übertreffen. Auf derselben Trainingsmenge zeigen wir im Vergleich zu den Mean-Average-Precision-Benchmarks eine signifikante Verbesserung. Darüber hinaus steigern wir die Leistung von Transformer-Architekturen durch Techniken wie Pooling, die in den letzten Jahren aus konvolutionalen Netzen abgeleitet wurden. Zudem zeigen wir, wie Ideen der Multi-Rate-Signalverarbeitung, inspiriert durch Wavelets, auf die Transformer-Embeddings angewendet werden können, um die Ergebnisse weiter zu verbessern. Schließlich demonstrieren wir, wie unsere Modelle einen nichtlinearen, nicht konstanten Bandbreiten-Filterbank lernen, der eine anpassungsfähige Zeit-Frequenz-Vorstufe für die Aufgabe des Audio-Verstehens darstellt – eine Darstellung, die sich von anderen Aufgaben, beispielsweise der Tonhöhenabschätzung, unterscheidet.