HyperAIHyperAI
vor 2 Monaten

Tiefes Clustering: Diskriminative Einbettungen für Segmentierung und Trennung

John R. Hershey; Zhuo Chen; Jonathan Le Roux; Shinji Watanabe
Tiefes Clustering: Diskriminative Einbettungen für Segmentierung und Trennung
Abstract

Wir behandeln das Problem der akustischen Quellentrennung in einem tiefen Lernrahmen, den wir „Deep Clustering“ nennen. Anstatt Signale oder Maskierungsfunktionen direkt zu schätzen, trainieren wir ein tiefes Netzwerk, um Spektrogrammeinbettungen zu erzeugen, die für die in den Trainingsdaten gegebenen Partitionsschlagwörter diskriminativ sind. Vorherige Ansätze mit tiefen Netzen bieten zwar große Vorteile hinsichtlich Lernleistung und Geschwindigkeit, aber es war bisher unklar, wie man sie zur klasseunabhängigen Trennung von Signalen verwenden kann. Im Gegensatz dazu sind spektrale Clustering-Methoden flexibel bezüglich der Klassen und der Anzahl der zu segmentierenden Elemente, aber es war unklar, wie man die Lernleistung und Geschwindigkeit von tiefen Netzen nutzen kann. Um das Beste aus beiden Welten zu gewinnen, verwenden wir eine Zielfunktion, die Einbettungen trainiert, die eine niedrigrangige Approximation einer idealen paarweisen Affinitätsmatrix liefern, auf klasseunabhängige Weise. Dies vermeidet die hohen Kosten der spektralen Faktorisierung und erzeugt stattdessen kompakte Cluster, die sich einfach durch Clustering-Methoden bearbeiten lassen. Die Segmentierungen sind daher implizit in den Einbettungen kodiert und können durch Clustering „dekodiert“ werden.Vorläufige Experimente zeigen, dass die vorgeschlagene Methode Sprache trennen kann: Wenn sie auf Spektrogrammfeatures trainiert wird, die Mischsignale von zwei Sprechern enthalten, und auf Mischsignale eines zurückgehaltenen Satzes von Sprechern getestet wird, kann sie Maskierungsfunktionen ableiten, die die Signalqualität um etwa 6 dB verbessern. Wir zeigen außerdem, dass das Modell sich auf Mischsignale von drei Sprechern verallgemeinert, obwohl es nur auf Mischsignale von zwei Sprechern trainiert wurde. Der Rahmen kann ohne Klassenschlagwörter verwendet werden und hat daher das Potenzial, auf einer vielfältigen Menge an Schallarten trainiert zu werden und sich auf neue Quellen zu verallgemeinern. Wir hoffen, dass zukünftige Arbeiten zu einer Segmentierung beliebiger Klänge führen werden – mit Erweiterungen für Mikrofonarray-Methoden sowie Bildsegmentierung und andere Bereiche.

Tiefes Clustering: Diskriminative Einbettungen für Segmentierung und Trennung | Neueste Forschungsarbeiten | HyperAI