HyperAIHyperAI
vor 11 Tagen

Zur Verteidigung der Metrik-Lernverfahren für die Sprechererkennung

Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han
Zur Verteidigung der Metrik-Lernverfahren für die Sprechererkennung
Abstract

Das Ziel dieses Papers ist die „open-set“-Sprechererkennung bisher unbekannter Sprecher, wobei ideale Embeddings in der Lage sein sollten, Informationen in einer kompakten, sprachlich auf Sätzen basierenden Darstellung zu verdichten, die eine geringe intra-sprecherliche und eine große inter-sprecherliche Distanz aufweist. Eine verbreitete Ansicht in der Sprechererkennung besagt, dass Netzwerke, die mit Klassifizierungszielen trainiert werden, die Leistung von Metrik-Lernmethoden übertrifft. In diesem Paper präsentieren wir eine umfassende Evaluation der gängigsten Verlustfunktionen für die Sprechererkennung auf dem VoxCeleb-Datensatz. Wir zeigen, dass die einfache Triplet-Loss competitive Ergebnisse im Vergleich zu klassifizierungsbasierenden Verlustfunktionen erzielt, und dass Modelle, die mit unserem vorgeschlagenen metrischen Lernziel trainiert wurden, die derzeit besten Ansätze übertreffen.

Zur Verteidigung der Metrik-Lernverfahren für die Sprechererkennung | Neueste Forschungsarbeiten | HyperAI