
要約
議論マイニングに関する先行研究では、しばしば自動弁論システムへの潜在的な応用が言及されています。しかしながら、競技的な公式弁論における問題に自然言語処理技術を適用したデータセットやモデルはほとんど存在しません。この状況を改善するために、 DebateSum データセットを紹介します。DebateSum は、187,386 件の独自の証拠とそれに対応する議論および抽出要約から構成されています。このデータセットは、全米スピーチ暨弁論協会(National Speech and Debate Association)の競技者たちが7年間にわたって収集したデータを使用して作成されました。我々は、 DebateSum 上での要約性能をベンチマークするために、複数のトランスフォーマー要約モデルを訓練しました。また、 DebateSum を用いて訓練された fastText 単語ベクトルである debate2vec も導入します。さらに、現在全米スピーチ暨弁論協会のメンバーたちによって広く利用されているこのデータセット向けの検索エンジンも紹介します。DebateSum 検索エンジンは一般公開されており、以下の URL からアクセスできます: http://www.debate.cards