HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeits-Back-end für die automatische Sprecheridentifikation mit mehreren Enrolment-Aussagen

Chang Zeng Xin Wang Erica Cooper Xiaoxiao Miao Junichi Yamagishi

Zusammenfassung

Probabilistische lineare Diskriminanzanalyse (PLDA) sowie Kosinus-Ähnlichkeit werden in traditionellen Sprecheridentifikationssystemen als Back-End-Techniken zur Messung der Paarweisen Ähnlichkeit weit verbreitet eingesetzt. Um mehrere Enrolment-Aussagen besser auszunutzen, schlagen wir ein neuartiges Aufmerksamkeits-Back-End-Modell vor, das sowohl für textunabhängige (TI) als auch textabhängige (TD) Sprecheridentifikation geeignet ist. Als Architektur verwenden wir skalierte-Punkt-Selbstaufmerksamkeits-Netzwerke und Feed-Forward-Selbstaufmerksamkeits-Netzwerke, um die inneren Beziehungen zwischen den Enrolment-Aussagen zu lernen. Um die Wirksamkeit des vorgeschlagenen Aufmerksamkeits-Back-End-Modells zu überprüfen, führen wir eine Reihe von Experimenten auf den Datensätzen CNCeleb und VoxCeleb durch, indem wir es mit mehreren State-of-the-Art-Sprecher-Encoder wie TDNN und ResNet kombinieren. Die experimentellen Ergebnisse unter Verwendung mehrerer Enrolment-Aussagen auf CNCeleb zeigen, dass das vorgeschlagene Aufmerksamkeits-Back-End-Modell gegenüber PLDA und Kosinus-Ähnlichkeit jeweils niedrigere EER- und minDCF-Werte erzielt. Ein weiteres Experiment auf VoxCeleb zeigt zudem, dass unser Modell auch im Fall einer einzigen Enrolment-Aussage anwendbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp