11日前

テキスト簡略化における文対応のためのニューラルCRFモデル

Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu
テキスト簡略化における文対応のためのニューラルCRFモデル
要約

テキスト簡略化システムの性能は、学習コーパスに含まれる複雑文と簡略文のペアの質と量に大きく依存しており、これらのペアは並行記事間の文の対応付けによって抽出される。文の対応付けの品質を評価および向上させるために、一般的に用いられるテキスト簡略化コーパスであるNewselaとWikipediaから、手動でアノテーションされた2つの文対応データセットを構築した。本研究では、並行文書内の文の順序性を活用するとともに、ニューラル文ペアモデルを用いて意味的類似性を捉えることのできる新しいニューラルCRF対応モデルを提案する。実験の結果、本手法は単言語文対応タスクにおいて、従来のすべての手法をF1スコアで5ポイント以上上回ることが示された。さらに、本CRF対応モデルを活用して、既存のデータセットと比較して大幅に規模が大きく、品質も優れた新しいテキスト簡略化データセット「Newsela-Auto」と「Wiki-Auto」を構築した。これらのデータセット上で学習されたTransformerベースのseq2seqモデルは、自動評価および人間評価の両面で、テキスト簡略化分野における新たな最先端性能(state-of-the-art)を達成した。

テキスト簡略化における文対応のためのニューラルCRFモデル | 最新論文 | HyperAI超神経