HyperAIHyperAI
vor 17 Tagen

Libri-Light: Ein Benchmark für ASR mit begrenzter oder keiner Aufsicht

Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux
Libri-Light: Ein Benchmark für ASR mit begrenzter oder keiner Aufsicht
Abstract

Wir stellen eine neue Sammlung gesprochener englischer Audioaufnahmen vor, die für die Schulung von Spracherkennungssystemen unter begrenzter oder keiner Aufsicht geeignet ist. Die Daten stammen aus frei verfügbaren Hörbüchern des LibriVox-Projekts. Sie umfasst über 60.000 Stunden Audio und ist, soweit uns bekannt, die größte frei verfügbare Korpus-Sammlung von Sprache. Die Audioinhalte wurden mittels Sprachaktivitätserkennung segmentiert und mit Angaben zu SNR, Sprecher-ID und Genre versehen. Zudem stellen wir Baseline-Systeme und Evaluationsmetriken für drei unterschiedliche Szenarien bereit: (1) das Zero-Resource/unsupervised-Szenario (ABX), (2) das semi-supervised-Szenario (PER, CER) und (3) das distant supervision-Szenario (WER). Die Szenarien (2) und (3) nutzen begrenzte Textressourcen (zwischen 10 Minuten und 10 Stunden), die mit dem Sprachsignal aligniert sind. Szenario (3) verwendet zudem große Mengen nicht-alignierter Texte. Die Systeme werden auf den standardisierten LibriSpeech-Entwicklungssätzen (dev) und Testmengen (test) evaluiert, um den Vergleich mit dem gegenwärtigen Stand der Technik unter überwachtem Lernen zu ermöglichen.