HyperAIHyperAI
vor 15 Tagen

M2D-CLAP: Masked Modeling Duo trifft auf CLAP zur Lernung allgemeiner Audio-Sprache-Repräsentation

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto
M2D-CLAP: Masked Modeling Duo trifft auf CLAP zur Lernung allgemeiner Audio-Sprache-Repräsentation
Abstract

Kontrastive Sprache-Audio-Vorverarbeitung (CLAP) ermöglicht die zero-shot-(ZS)-Inferenz von Audio und zeigt vielversprechende Leistung in mehreren Klassifizierungsaufgaben. Allerdings bleiben herkömmliche Audio-Repräsentationen für viele Aufgaben weiterhin entscheidend, bei denen ZS nicht anwendbar ist (z. B. Regressionsprobleme). In dieser Arbeit untersuchen wir eine neue Repräsentation, eine allgemein verwendbare Audio-Sprache-Repräsentation, die sowohl bei ZS- als auch bei Transfer-Learning-Aufgaben gut abschneidet. Dazu schlagen wir eine neue Methode, M2D-CLAP, vor, die die selbstüberwachte Lernmethode Masked Modeling Duo (M2D) mit CLAP kombiniert. M2D lernt eine effektive Repräsentation zur Modellierung von Audiosignalen, während CLAP diese Repräsentation mit Text-Embeddings ausrichtet. Dadurch erlernt M2D-CLAP eine vielseitige Repräsentation, die sowohl ZS- als auch Transfer-Learning-Anwendungen unterstützt. Experimente zeigen, dass M2D-CLAP bei linearer Evaluation, Fine-Tuning und ZS-Klassifizierung hervorragende Ergebnisse erzielt – mit einer state-of-the-art-Leistung von 75,17 % auf dem GTZAN-Datensatz – und somit eine allgemein verwendbare Audio-Sprache-Repräsentation realisiert.

M2D-CLAP: Masked Modeling Duo trifft auf CLAP zur Lernung allgemeiner Audio-Sprache-Repräsentation | Neueste Forschungsarbeiten | HyperAI