HyperAIHyperAI
vor 17 Tagen

Aufmerksamkeits-Back-end für die automatische Sprecheridentifikation mit mehreren Enrolment-Aussagen

Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi
Aufmerksamkeits-Back-end für die automatische Sprecheridentifikation mit mehreren Enrolment-Aussagen
Abstract

Probabilistische lineare Diskriminanzanalyse (PLDA) sowie Kosinus-Ähnlichkeit werden in traditionellen Sprecheridentifikationssystemen als Back-End-Techniken zur Messung der Paarweisen Ähnlichkeit weit verbreitet eingesetzt. Um mehrere Enrolment-Aussagen besser auszunutzen, schlagen wir ein neuartiges Aufmerksamkeits-Back-End-Modell vor, das sowohl für textunabhängige (TI) als auch textabhängige (TD) Sprecheridentifikation geeignet ist. Als Architektur verwenden wir skalierte-Punkt-Selbstaufmerksamkeits-Netzwerke und Feed-Forward-Selbstaufmerksamkeits-Netzwerke, um die inneren Beziehungen zwischen den Enrolment-Aussagen zu lernen. Um die Wirksamkeit des vorgeschlagenen Aufmerksamkeits-Back-End-Modells zu überprüfen, führen wir eine Reihe von Experimenten auf den Datensätzen CNCeleb und VoxCeleb durch, indem wir es mit mehreren State-of-the-Art-Sprecher-Encoder wie TDNN und ResNet kombinieren. Die experimentellen Ergebnisse unter Verwendung mehrerer Enrolment-Aussagen auf CNCeleb zeigen, dass das vorgeschlagene Aufmerksamkeits-Back-End-Modell gegenüber PLDA und Kosinus-Ähnlichkeit jeweils niedrigere EER- und minDCF-Werte erzielt. Ein weiteres Experiment auf VoxCeleb zeigt zudem, dass unser Modell auch im Fall einer einzigen Enrolment-Aussage anwendbar ist.

Aufmerksamkeits-Back-end für die automatische Sprecheridentifikation mit mehreren Enrolment-Aussagen | Neueste Forschungsarbeiten | HyperAI