Abstraktive Zusammenfassung von gesprochenen und geschriebenen Anweisungen mit BERT

Die Zusammenfassung von Sprache stellt aufgrund der Natürlichkeit des Sprachflusses, von Redundanzen und anderen Problemen, die in schriftlichen Texten selten auftreten, eine herausfordernde Aufgabe dar. In unserer Arbeit präsentieren wir die erste Anwendung des BERTSum-Modells auf dialogische Sprache. Wir erzeugen abstraktive Zusammenfassungen narrativer Anleitungsvideos über eine breite Palette von Themen – von Gärtnern und Kochen bis hin zu Software-Konfiguration und Sport. Um das Vokabular zu erweitern, setzen wir Transferlernen ein und prätrainieren das Modell auf mehreren großen, über verschiedene Domänen hinweg reichenden Datensätzen sowohl im geschriebenen als auch im gesprochenen Englisch. Zudem führen wir eine Vorverarbeitung von Transkripten durch, um die Satzsegmentierung und Interpunktion im Ausgabestrom eines ASR-Systems wiederherzustellen. Die Ergebnisse werden anhand der ROUGE- und Content-F1-Metriken für die Datensätze How2 und WikiHow bewertet. Menschliche Bewertung durch Experten erfolgt anhand einer zufällig ausgewählten Stichprobe von Zusammenfassungen, die aus einem Datensatz zusammengestellt wurden, der aus HowTo100M und YouTube stammt. Auf Basis einer blinden Bewertung erreichen wir ein Maß an sprachlicher Flüssigkeit und Nützlichkeit, das nahe an dem von menschlich erstellten Inhalt liegt. Das Modell übertrifft die aktuelle State-of-the-Art-Performance bei der Verarbeitung von WikiHow-Artikeln, die sich stark in Stil und Thema unterscheiden, und zeigt dabei keine Leistungseinbuße auf dem klassischen CNN/DailyMail-Datensatz. Aufgrund der hohen Verallgemeinerungsfähigkeit des Modells über verschiedene Stile und Domänen hinweg bietet es großes Potenzial, die Zugänglichkeit und Auffindbarkeit von Internetinhalten zu verbessern. Wir sehen die Integration dieses Modells als Funktion in intelligenten virtuellen Assistenten vor, die dann sowohl schriftliche als auch gesprochene Anleitungsinhalte auf Anfrage zusammenfassen können.