2ヶ月前
複雑度加重損失と多様性再順位付けを用いた文の単純化
Reno Kriz; João Sedoc; Marianna Apidianaki; Carolina Zheng; Gaurav Kumar; Eleni Miltsakaki; Chris Callison-Burch

要約
文の単純化は、文章をより理解しやすい形に書き換えるタスクである。最近の研究では、このタスクに対してシーケンス・トゥ・シーケンス(Seq2Seq)モデルが適用され、強化学習やメモリ拡張を用いた学習時の改善に重点が置かれている。汎用的なSeq2Seqモデルを単純化に適用する際の主な問題点は、これらのモデルが元の文から直接コピーすることが多く、結果として出力される文が相対的に長く複雑になることである。本研究では、この問題を緩和するために2つの主要な手法を使用することを目指している。第一に、段階的な単語複雑度モデルで予測された内容語の複雑度を学習時の損失関数に組み込む。第二に、テスト時に多様な候補文の大量生成を行い、それらを流暢性、適切性、および単純性を促進するように再順位付けを行う。ここで、単純性は新しい文の複雑度モデルによって測定される。これらの拡張により、当社のモデルは最先端システムと競合しつつもより単純な文を生成することが可能となった。標準的な自動評価指標と人間による評価指標について報告する。