Libri-Light: Ein Benchmark für ASR mit begrenzter oder keiner Aufsicht

Wir stellen eine neue Sammlung gesprochener englischer Audioaufnahmen vor, die für die Schulung von Spracherkennungssystemen unter begrenzter oder keiner Aufsicht geeignet ist. Die Daten stammen aus frei verfügbaren Hörbüchern des LibriVox-Projekts. Sie umfasst über 60.000 Stunden Audio und ist, soweit uns bekannt, die größte frei verfügbare Korpus-Sammlung von Sprache. Die Audioinhalte wurden mittels Sprachaktivitätserkennung segmentiert und mit Angaben zu SNR, Sprecher-ID und Genre versehen. Zudem stellen wir Baseline-Systeme und Evaluationsmetriken für drei unterschiedliche Szenarien bereit: (1) das Zero-Resource/unsupervised-Szenario (ABX), (2) das semi-supervised-Szenario (PER, CER) und (3) das distant supervision-Szenario (WER). Die Szenarien (2) und (3) nutzen begrenzte Textressourcen (zwischen 10 Minuten und 10 Stunden), die mit dem Sprachsignal aligniert sind. Szenario (3) verwendet zudem große Mengen nicht-alignierter Texte. Die Systeme werden auf den standardisierten LibriSpeech-Entwicklungssätzen (dev) und Testmengen (test) evaluiert, um den Vergleich mit dem gegenwärtigen Stand der Technik unter überwachtem Lernen zu ermöglichen.