HyperAIHyperAI
vor 11 Tagen

Detektion und Klassifikation von Füllwörtern: Ein Datensatz und Benchmark

Ge Zhu, Juan-Pablo Caceres, Justin Salamon
Detektion und Klassifikation von Füllwörtern: Ein Datensatz und Benchmark
Abstract

Füllwörter wie „äh“ oder „hm“ sind Laute oder Wörter, die Menschen verwenden, um anzuzeigen, dass sie eine Pause einlegen, um nachzudenken. Die Erkennung und Entfernung von Füllwörtern aus Aufnahmen ist eine verbreitete und zeitaufwändige Aufgabe im Medien-Editing. Die automatische Erkennung und Klassifizierung von Füllwörtern könnte diese Aufgabe erheblich erleichtern, doch bisher wurden nur wenige Studien zu diesem Thema veröffentlicht. Ein zentraler Grund hierfür ist das Fehlen eines Datensatzes mit annotierten Füllwörtern für das Training und die Evaluation von Modellen. In dieser Arbeit stellen wir einen neuartigen Sprachdatensatz namens PodcastFillers vor, der 35.000 annotierte Füllwörter sowie 50.000 Annotationen anderer häufig in Podcasts vorkommender Geräusche wie Atemzüge, Lachen und Wortwiederholungen enthält. Wir schlagen eine Pipeline vor, die VAD (Voice Activity Detection) und ASR (Automatic Speech Recognition) nutzt, um Füllwort-Kandidaten zu identifizieren, und einen Klassifikator, um zwischen verschiedenen Arten von Füllwörtern zu unterscheiden. Wir evaluieren unsere vorgeschlagene Pipeline anhand des Datensatzes PodcastFillers, vergleichen sie mit mehreren Baselines und präsentieren eine detaillierte Ablation Study. Insbesondere untersuchen wir die Bedeutung der Nutzung von ASR und vergleichen sie mit einem transcription-free Ansatz, der der Keyword-Spotting-Technik ähnelt. Wir zeigen, dass unsere Pipeline state-of-the-art Ergebnisse erzielt und dass die Nutzung von ASR deutlich besser abschneidet als ein Ansatz ohne Transkription. Wir stellen PodcastFillers öffentlich zur Verfügung, mit der Hoffnung, dass unsere Arbeit als Benchmark für zukünftige Forschung dienen wird.

Detektion und Klassifikation von Füllwörtern: Ein Datensatz und Benchmark | Neueste Forschungsarbeiten | HyperAI