Zur Verteidigung der Metrik-Lernverfahren für die Sprechererkennung

Das Ziel dieses Papers ist die „open-set“-Sprechererkennung bisher unbekannter Sprecher, wobei ideale Embeddings in der Lage sein sollten, Informationen in einer kompakten, sprachlich auf Sätzen basierenden Darstellung zu verdichten, die eine geringe intra-sprecherliche und eine große inter-sprecherliche Distanz aufweist. Eine verbreitete Ansicht in der Sprechererkennung besagt, dass Netzwerke, die mit Klassifizierungszielen trainiert werden, die Leistung von Metrik-Lernmethoden übertrifft. In diesem Paper präsentieren wir eine umfassende Evaluation der gängigsten Verlustfunktionen für die Sprechererkennung auf dem VoxCeleb-Datensatz. Wir zeigen, dass die einfache Triplet-Loss competitive Ergebnisse im Vergleich zu klassifizierungsbasierenden Verlustfunktionen erzielt, und dass Modelle, die mit unserem vorgeschlagenen metrischen Lernziel trainiert wurden, die derzeit besten Ansätze übertreffen.