6ヶ月前

概要

最近、編集ベース（edit-based）のアプローチが、複数の単言語シーケンス変換タスクにおいて有望な結果を示している。従来のシーケンス・トゥ・シーケンス（Seq2Seq）モデルとは異なり、並列コーパス上で訓練される際、テキストを完全に新規に生成するのではなく、強力な事前学習済み言語モデルを活用しつつ、迅速かつ正確な変換を学習できる点で、これらの手法ははるかに効果的であることが実証されている。このような考えに触発され、本研究では、事前学習済みTransformerベースのエンコーダを活用した、シンプルかつ効率的なテキスト簡略化（Text Simplification）システム「TST（Text Simplification via Tagging）」を提案する。本システムは、既存のシステムに対して単純なデータ拡張およびトレーニング・インファレンス段階での微調整を行うことで、大量の並列トレーニングデータに依存しなくても済み、出力に対する制御性が向上し、インファレンス速度も大幅に高速化される。実験の結果、最良のモデルは、タスクにおけるベンチマークテストデータセットで準最先端（near state-of-the-art）の性能を達成した。さらに、完全に非自己回帰的（non-autoregressive）な構造を採用しているため、現在の最先端テキスト簡略化システムと比較して、インファレンス速度が11倍以上高速化された。

ソースPDF