HowSumm: Ein Multi-Dokument-Zusammenfassungs-Datensatz, abgeleitet aus WikiHow-Artikeln

Wir präsentieren HowSumm, einen neuartigen, großskaligen Datensatz für die Aufgabe der fragenorientierten Mehrdokument-Zusammenfassung (query-focused multi-document summarization, qMDS), der sich auf den Anwendungsfall der Erzeugung handlungsleitender Anweisungen aus einer Reihe von Quellen konzentriert. Dieser Anwendungsfall unterscheidet sich von den in bestehenden Mehrdokument-Zusammenfassungs-Datensätzen abgedeckten Szenarien und ist sowohl im Bildungs- als auch im industriellen Kontext anwendbar. HowSumm wurde mittels automatisierter Methoden aus Artikeln der Website wikiHow und den von ihnen zitierten Quellen erstellt, wobei statistische Informationen aus bereits vorhandenen, von Menschen erstellten qMDS-Datensätzen genutzt wurden. Wir beschreiben die Erstellung des Datensatzes und diskutieren die einzigartigen Merkmale, die ihn von anderen Zusammenfassungs-Korpora unterscheiden. Automatisierte und menschliche Evaluierungen sowohl extraktiver als auch abstraktiver Zusammenfassungsmodelle auf dem Datensatz zeigen, dass noch Verbesserungspotenzial besteht.