2ヶ月前

TLDR9+: ソーシャルメディア投稿の極端な要約の大規模リソース

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian
TLDR9+: ソーシャルメディア投稿の極端な要約の大規模リソース
要約

最近の要約システム開発モデルは数百万のパラメータで構成されており、モデルの性能は訓練データの豊富さに大きく依存しています。現存する大多数の要約コーパスは数千から100万程度のデータを含んでいますが、数百万規模の要約データセットの生成はまだ十分に探索されていません。実際には、より多くのデータが未知のデータに対する訓練パターンの一般化に有利です。本論文では、Redditディスカッションフォーラム(https://github.com/sajastu/reddit_collector)から抽出した900万以上の訓練インスタンスを含む大規模な要約データセット「TLDR9+」を紹介します。このデータセットは特に極端な要約(つまり、高い圧縮率と抽象度を持つ一文要約を生成すること)のために収集され、従来提案されたデータセットよりも2倍以上大きいです。さらに一歩進めて、人間による注釈を使用してTLDR9+から高品質なインスタンスをサンプリングし、より詳細なデータセット「TLDRHQ」を作成しました。私たちは提案したデータセット上でさまざまな最先端の要約モデルを評価しています。

TLDR9+: ソーシャルメディア投稿の極端な要約の大規模リソース | 最新論文 | HyperAI超神経