WikiHow: Ein großes Textzusammenfassungs-Datensatz

Sequence-to-Sequence-Modelle haben kürzlich den Stand der Technik in der Zusammenfassung erreicht. Allerdings sind nicht viele umfangreiche, hochwertige Datensätze verfügbar, und die meisten existierenden Datensätze bestehen hauptsächlich aus Nachrichtenartikeln mit einem spezifischen Schreibstil. Darüber hinaus erfordern abstraktive Systeme, die einen tieferen Inhaltsbeschreibungsniveau aufweisen, Daten mit höheren Abstraktionsgraden. In dieser Arbeit stellen wir WikiHow vor, einen Datensatz von mehr als 230.000 Artikeln und Zusammenfassungen, die aus einer Online-Wissensdatenbank extrahiert und zusammengestellt wurden, die von verschiedenen menschlichen Autoren verfasst wurde. Die Artikel behandeln eine breite Palette von Themen und repräsentieren daher Stile mit hoher Vielfalt. Wir bewerten die Leistung der vorhandenen Methoden auf WikiHow, um seine Herausforderungen zu verdeutlichen und einige Baseline-Ergebnisse festzulegen, um es weiter zu verbessern.