Prosodische Hervorhebung aus Text mit vortrainierten kontextualisierten Wortrepräsentationen vorhersagen

In dieser Arbeit stellen wir einen neuen Datensatz und eine Benchmark für die Vorhersage prosodischer Hervorhebungen aus geschriebenen Texten vor. Nach unserem Wissen wird dies der größte öffentlich verfügbare Datensatz mit prosodischen Labels sein. Wir beschreiben die Erstellung des Datensatzes und den daraus resultierenden Benchmark-Datensatz im Detail und trainieren eine Reihe verschiedener Modelle, von Merkmalsbasierten Klassifizierern bis hin zu neuronalen Netzwerksystemen, zur Vorhersage diskretisierter prosodischer Hervorhebungen. Wir zeigen, dass prätrainierte kontextualisierte Wortrepräsentationen von BERT auch bei weniger als 10 % der Trainingsdaten die anderen Modelle übertrumpfen. Schließlich diskutieren wir den Datensatz im Lichte der Ergebnisse und weisen auf zukünftige Forschungsrichtungen sowie Pläne zur weiteren Verbesserung sowohl des Datensatzes als auch der Methoden zur Vorhersage prosodischer Hervorhebungen aus Text hin. Der Datensatz und der Code für die Modelle sind öffentlich zugänglich.