SLURP: Ein Paket zur Sprachverstehensressource für gesprochene Sprache

Sprachverstehen (Spoken Language Understanding, SLU) leitet semantische Bedeutung direkt aus Audiodaten ab und verspricht damit, Fehlerfortpflanzung und Missverständnisse in Anwendungen für Endnutzer zu reduzieren. Allerdings sind öffentlich verfügbare SLU-Ressourcen bisher begrenzt. In diesem Paper stellen wir SLURP vor, ein neues SLU-Paket, das folgende Komponenten enthält: (1) Eine neue, anspruchsvolle Datensammlung auf Englisch, die 18 Domänen abdeckt und erheblich größer sowie linguistisch vielfältiger ist als bestehende Datensätze; (2) Wettbewerbsfähige Baselines, die auf modernsten NLU- und ASR-Systemen basieren; (3) Eine neue transparente Metrik für die Entitätsmarkierung, die eine detaillierte Fehleranalyse ermöglicht und potenzielle Verbesserungsbereiche identifiziert. SLURP ist unter https://github.com/pswietojanski/slurp verfügbar.