HyperAIHyperAI
vor 2 Monaten

Maskiertes Modell-Duo: Ein universelles Framework für die Vortraining von Audio

Daisuke Niizumi; Daiki Takeuchi; Yasunori Ohishi; Noboru Harada; Kunio Kashino
Maskiertes Modell-Duo: Ein universelles Framework für die Vortraining von Audio
Abstract

Selbstüberwachtes Lernen (SSL) mit maskeierter Vorhersage hat große Fortschritte bei der allgemeinen Audiodarstellung erzielt. Diese Studie schlägt Masked Modeling Duo (M2D) vor, eine verbesserte maskeierte Vorhersage-SSL, die durch die Vorhersage von Darstellungen maskierter Eingangssignale lernt, die als Trainingsdaten dienen. Im Gegensatz zu herkömmlichen Methoden erhält M2D ein Trainingsignal, indem es nur den maskierten Teil kodiert, was die beiden Netzwerke in M2D dazu anregt, das Eingangssignal zu modellieren. Obwohl M2D die allgemeine Audiodarstellung verbessert, ist eine spezialisierte Darstellung für praktische Anwendungen wie in industriellen und medizinischen Bereichen entscheidend. Die oft vertraulichen und proprietären Daten in solchen Bereichen sind in der Regel begrenzt im Umfang und haben eine andere Verteilung als die Daten in den Pre-Training-Datensätzen. Daher schlagen wir M2D für X (M2D-X) vor, eine Erweiterung von M2D, um das Pre-Training spezialisierter Darstellungen für eine Anwendung X zu ermöglichen. M2D-X lernt sowohl von M2D als auch von einer zusätzlichen Aufgabe und nimmt Hintergrundrauschen als Eingabe auf. Wir gestalten die zusätzliche Aufgabe konfigurierbar, um verschiedene Anwendungen abzudecken, während das Hintergrundrauschen das Lernen auf kleinen Datensätzen unterstützt und eine Rauschunterdrückungsaufgabe bildet, die die Robustheit der Darstellung erhöht. Mit diesen Designentscheidungen sollte M2D-X eine auf verschiedene Anwendungsnachfragen abgestimmte Darstellung lernen können. Unsere Experimente bestätigten, dass die Darstellungen für allgemeine Audioaufgaben sowie spezialisierte Darstellungen für den hochwettbewerbsfähigen AudioSet- und Sprachbereich sowie für eine medizinische Aufgabe mit geringem Datenvolumen Spitzenleistungen erzielen, was das Potenzial unserer Modelle als universelles Pre-Training-Framework für Audio darlegt. Unser Code steht online für zukünftige Studien zur Verfügung: https://github.com/nttcslab/m2d

Maskiertes Modell-Duo: Ein universelles Framework für die Vortraining von Audio | Neueste Forschungsarbeiten | HyperAI