HyperAIHyperAI

Command Palette

Search for a command to run...

M2D-CLAP: Masked Modeling Duo trifft auf CLAP zur Lernung allgemeiner Audio-Sprache-Repräsentation

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Masahiro Yasuda Shunsuke Tsubaki Keisuke Imoto

Zusammenfassung

Kontrastive Sprache-Audio-Vorverarbeitung (CLAP) ermöglicht die zero-shot-(ZS)-Inferenz von Audio und zeigt vielversprechende Leistung in mehreren Klassifizierungsaufgaben. Allerdings bleiben herkömmliche Audio-Repräsentationen für viele Aufgaben weiterhin entscheidend, bei denen ZS nicht anwendbar ist (z. B. Regressionsprobleme). In dieser Arbeit untersuchen wir eine neue Repräsentation, eine allgemein verwendbare Audio-Sprache-Repräsentation, die sowohl bei ZS- als auch bei Transfer-Learning-Aufgaben gut abschneidet. Dazu schlagen wir eine neue Methode, M2D-CLAP, vor, die die selbstüberwachte Lernmethode Masked Modeling Duo (M2D) mit CLAP kombiniert. M2D lernt eine effektive Repräsentation zur Modellierung von Audiosignalen, während CLAP diese Repräsentation mit Text-Embeddings ausrichtet. Dadurch erlernt M2D-CLAP eine vielseitige Repräsentation, die sowohl ZS- als auch Transfer-Learning-Anwendungen unterstützt. Experimente zeigen, dass M2D-CLAP bei linearer Evaluation, Fine-Tuning und ZS-Klassifizierung hervorragende Ergebnisse erzielt – mit einer state-of-the-art-Leistung von 75,17 % auf dem GTZAN-Datensatz – und somit eine allgemein verwendbare Audio-Sprache-Repräsentation realisiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp