DebateSum: Ein umfangreiches Datensatz für die Mining und Zusammenfassung von Argumenten

Frühere Arbeiten im Bereich Argument Mining beziehen sich häufig auf die potenziellen Anwendungen in automatischen Debattensystemen. Trotz dieses Fokus existieren kaum Datensätze oder Modelle, die natürlichsprachliche Verarbeitungstechniken auf Probleme anwenden, die im wettbewerbsorientierten formellen Debattieren auftreten. Um dies zu beheben, präsentieren wir den Datensatz DebateSum. DebateSum besteht aus 187.386 einzigartigen Beweisstücken mit entsprechenden Argumenten und extraktiven Zusammenfassungen. Der Datensatz wurde mithilfe von Daten erstellt, die von Teilnehmern der National Speech and Debate Association über einen Zeitraum von sieben Jahren gesammelt wurden. Wir trainieren mehrere Transformer-Zusammenfassungsmodelle, um die Leistungsfähigkeit der Zusammenfassung auf DebateSum zu bewerten. Darüber hinaus führen wir eine Reihe von fastText-Wortvektoren ein, die auf DebateSum trainiert wurden und als debate2vec bezeichnet werden. Schließlich stellen wir eine Suchmaschine für diesen Datensatz vor, die heute intensiv von Mitgliedern der National Speech and Debate Association genutzt wird. Die Suchmaschine von DebateSum ist dem Publikum hier zugänglich: http://www.debate.cards