HyperAIHyperAI
vor 8 Tagen

Speaker Embedding-aware Neural Diarization: Ein effizientes Framework für die Überlagerungssprecherdiarisierung in Sitzungsszenarien

Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
Speaker Embedding-aware Neural Diarization: Ein effizientes Framework für die Überlagerungssprecherdiarisierung in Sitzungsszenarien
Abstract

Die Überlappungssprecherdiarisierung wurde traditionell als ein Multi-Label-Klassifikationsproblem behandelt. In diesem Paper reformulieren wir diese Aufgabe als ein Single-Label-Vorhersageproblem, indem wir mehrere binäre Labels durch eine einzige Label-Kodierung mittels der Potenzmenge (power set) zusammenfassen, die die möglichen Kombinationen der Ziel-Sprecher repräsentiert. Diese Formulierung bietet zwei Vorteile: Erstens werden die Überlappungen der Ziel-Sprecher explizit modelliert; zweitens entfällt die Notwendigkeit der Schwellenwertauswahl. Auf Basis dieser Formulierung schlagen wir den Speaker Embedding-aware Neural Diarization (SEND)-Framework vor, bei dem ein Sprachencoder, ein Sprecherencoder, zwei Similaritätsscorer sowie ein Post-Processing-Netzwerk gemeinsam optimiert werden, um die kodierten Labels basierend auf den Ähnlichkeiten zwischen Sprachmerkmalen und Sprecher-Embeddings vorherzusagen. Experimentelle Ergebnisse zeigen, dass SEND einen stabilen Lernprozess aufweist und auf stark überlappenden Daten ohne zusätzliche Initialisierung trainiert werden kann. Vor allem erreicht unsere Methode in realen Sitzungsszenarien die bisher beste Leistung bei geringerem Modellparameterumfang und niedrigerer Rechenkomplexität.

Speaker Embedding-aware Neural Diarization: Ein effizientes Framework für die Überlagerungssprecherdiarisierung in Sitzungsszenarien | Neueste Forschungsarbeiten | HyperAI