HyperAIHyperAI

Command Palette

Search for a command to run...

ESPnet-SPK: vollständiges Pipeline-Toolkit für Sprecher-Embeddings mit reproduzierbaren Rezepten, selbstüberwachten Front-Ends und sofort verwendbaren Modellen

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

Zusammenfassung

Diese Arbeit stellt ESPnet-SPK vor, ein Werkzeugkasten, der mehreren Zielen bei der Entwicklung von Sprecher-Embedding-Extraktoren dient. Erstens bieten wir eine Open-Source-Plattform für Forscher*innen der Sprechererkennungsgemeinschaft, um Modelle problemlos zu entwickeln. Wir stellen mehrere Modelle bereit, die von x-Vector bis hin zu aktuellen Architekturen wie SKA-TDNN reichen. Durch die modularisierte Architekturgestaltung können Varianten leicht entwickelt werden. Außerdem streben wir an, entwickelte Modelle mit anderen Forschungsbereichen zu verbinden, um der breiten Forschungsgemeinschaft die nahtlose Integration modernster Embedding-Extraktoren zu ermöglichen. Vorgefertigte Embedding-Extraktoren sind sofort verwendbar, und wir demonstrieren die Vielseitigkeit des Werkzeugkastens anhand seiner Integration in zwei unterschiedliche Aufgaben. Ein weiteres Ziel ist die Integration mit diversen selbstüberwachten Lern-Features. Wir veröffentlichen ein reproduzierbares Rezept, das bei der Vox1-O-Evaluationsprotokoll mit WavLM-Large und ECAPA-TDNN eine Equal Error Rate von 0,39 % erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp