
要約
自動的なテキスト要約は、大規模なテキスト要約データセットの不足により部分的に難易度が高いと広く認識されています。全文の要約を大規模に構築する際の大きな課題に対応するため、本論文では中国のマイクロブログサイト「新浪微博(Sina Weibo)」から収集した中国語短文要約データセットの大規模コーパスを紹介します。このコーパスは、各テキストの著者によって提供された200万件以上の実際の中国語短文とその短い要約から構成されており、公的に公開されています(http://icrc.hitsz.edu.cn/Article/show/139.html)。さらに、10,666件の短い要約とそれに対応する短文との関連性を手動でタグ付けしました。このコーパスに基づいて、我々は再帰型ニューラルネットワークを用いた要約生成手法を導入し、有望な結果を得ました。これは、提案されたコーパスが短文要約研究において有用であることを示すだけでなく、このトピックに関する今後の研究における基準も提供しています。