ESPnet-SPK: vollständiges Pipeline-Toolkit für Sprecher-Embeddings mit reproduzierbaren Rezepten, selbstüberwachten Front-Ends und sofort verwendbaren Modellen

Diese Arbeit stellt ESPnet-SPK vor, ein Werkzeugkasten, der mehreren Zielen bei der Entwicklung von Sprecher-Embedding-Extraktoren dient. Erstens bieten wir eine Open-Source-Plattform für Forscher*innen der Sprechererkennungsgemeinschaft, um Modelle problemlos zu entwickeln. Wir stellen mehrere Modelle bereit, die von x-Vector bis hin zu aktuellen Architekturen wie SKA-TDNN reichen. Durch die modularisierte Architekturgestaltung können Varianten leicht entwickelt werden. Außerdem streben wir an, entwickelte Modelle mit anderen Forschungsbereichen zu verbinden, um der breiten Forschungsgemeinschaft die nahtlose Integration modernster Embedding-Extraktoren zu ermöglichen. Vorgefertigte Embedding-Extraktoren sind sofort verwendbar, und wir demonstrieren die Vielseitigkeit des Werkzeugkastens anhand seiner Integration in zwei unterschiedliche Aufgaben. Ein weiteres Ziel ist die Integration mit diversen selbstüberwachten Lern-Features. Wir veröffentlichen ein reproduzierbares Rezept, das bei der Vox1-O-Evaluationsprotokoll mit WavLM-Large und ECAPA-TDNN eine Equal Error Rate von 0,39 % erreicht.