HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Verteidigung der Metrik-Lernverfahren für die Sprechererkennung

Joon Son Chung Jaesung Huh Seongkyu Mun Minjae Lee Hee Soo Heo Soyeon Choe Chiheon Ham Sunghwan Jung Bong-Jin Lee Icksang Han

Zusammenfassung

Das Ziel dieses Papers ist die „open-set“-Sprechererkennung bisher unbekannter Sprecher, wobei ideale Embeddings in der Lage sein sollten, Informationen in einer kompakten, sprachlich auf Sätzen basierenden Darstellung zu verdichten, die eine geringe intra-sprecherliche und eine große inter-sprecherliche Distanz aufweist. Eine verbreitete Ansicht in der Sprechererkennung besagt, dass Netzwerke, die mit Klassifizierungszielen trainiert werden, die Leistung von Metrik-Lernmethoden übertrifft. In diesem Paper präsentieren wir eine umfassende Evaluation der gängigsten Verlustfunktionen für die Sprechererkennung auf dem VoxCeleb-Datensatz. Wir zeigen, dass die einfache Triplet-Loss competitive Ergebnisse im Vergleich zu klassifizierungsbasierenden Verlustfunktionen erzielt, und dass Modelle, die mit unserem vorgeschlagenen metrischen Lernziel trainiert wurden, die derzeit besten Ansätze übertreffen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp