HyperAIHyperAI
vor 2 Monaten

VoxBlink2: Ein Sprechererkennungskorpus mit über 100.000 Sprechern und der Open-Set Sprecheridentifikationsbenchmark

Yuke Lin; Ming Cheng; Fulin Zhang; Yingying Gao; Shilei Zhang; Ming Li
VoxBlink2: Ein Sprechererkennungskorpus mit über 100.000 Sprechern und der Open-Set Sprecheridentifikationsbenchmark
Abstract

In dieser Arbeit stellen wir einen umfangreichen Audio-Visuellen Sprecheraufnahmedatensatz, VoxBlink2, vor, der etwa 10 Millionen Aussprachen von über 110.000 Sprechern im Freien enthält. Dieser Datensatz stellt eine erhebliche Erweiterung des VoxBlink-Datensatzes dar und umfasst durch eine optimierte Datenkollektionspipeline eine größere Vielfalt an Sprechern und Szenarien. Anschließend untersuchen wir den Einfluss von Trainingsstrategien, Datenvolumen und Modellkomplexität auf die Sprecherverifizierung und erreichen schließlich einen neuen Stand der Technik für ein einzelnes Modell mit einem EER von 0,170 % und einem minDCF von 0,006 % im VoxCeleb1-O Testset. Diese bemerkenswerten Ergebnisse motivieren uns, die Sprecheraufnahme aus einer neuen herausfordernden Perspektive zu erforschen. Wir stellen die Aufgabe der Offenen-Satz-Sprecheridentifikation (Open-Set Speaker-Identification) vor, die darauf abzielt, entweder eine Prüfaussprache mit einem bekannten Galeriesprecher abzugleichen oder sie als unbekannte Abfrage zu kategorisieren. Im Zusammenhang mit dieser Aufgabe entwickeln wir konkrete Benchmarks und Evaluationsprotokolle. Die Daten- und Modellressourcen können unter http://voxblink2.github.io gefunden werden.

VoxBlink2: Ein Sprechererkennungskorpus mit über 100.000 Sprechern und der Open-Set Sprecheridentifikationsbenchmark | Neueste Forschungsarbeiten | HyperAI