HyperAIHyperAI
vor 16 Tagen

ESPnet-SPK: vollständiges Pipeline-Toolkit für Sprecher-Embeddings mit reproduzierbaren Rezepten, selbstüberwachten Front-Ends und sofort verwendbaren Modellen

Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
ESPnet-SPK: vollständiges Pipeline-Toolkit für Sprecher-Embeddings mit reproduzierbaren Rezepten, selbstüberwachten Front-Ends und sofort verwendbaren Modellen
Abstract

Diese Arbeit stellt ESPnet-SPK vor, ein Werkzeugkasten, der mehreren Zielen bei der Entwicklung von Sprecher-Embedding-Extraktoren dient. Erstens bieten wir eine Open-Source-Plattform für Forscher*innen der Sprechererkennungsgemeinschaft, um Modelle problemlos zu entwickeln. Wir stellen mehrere Modelle bereit, die von x-Vector bis hin zu aktuellen Architekturen wie SKA-TDNN reichen. Durch die modularisierte Architekturgestaltung können Varianten leicht entwickelt werden. Außerdem streben wir an, entwickelte Modelle mit anderen Forschungsbereichen zu verbinden, um der breiten Forschungsgemeinschaft die nahtlose Integration modernster Embedding-Extraktoren zu ermöglichen. Vorgefertigte Embedding-Extraktoren sind sofort verwendbar, und wir demonstrieren die Vielseitigkeit des Werkzeugkastens anhand seiner Integration in zwei unterschiedliche Aufgaben. Ein weiteres Ziel ist die Integration mit diversen selbstüberwachten Lern-Features. Wir veröffentlichen ein reproduzierbares Rezept, das bei der Vox1-O-Evaluationsprotokoll mit WavLM-Large und ECAPA-TDNN eine Equal Error Rate von 0,39 % erreicht.

ESPnet-SPK: vollständiges Pipeline-Toolkit für Sprecher-Embeddings mit reproduzierbaren Rezepten, selbstüberwachten Front-Ends und sofort verwendbaren Modellen | Neueste Forschungsarbeiten | HyperAI