Command Palette
Search for a command to run...
テキスト簡素化によるタグ付け
テキスト簡素化によるタグ付け
Kostiantyn Omelianchuk Vipul Raheja Oleksandr Skurzhanskyi
概要
最近、編集ベース(edit-based)のアプローチが、複数の単言語シーケンス変換タスクにおいて有望な結果を示している。従来のシーケンス・トゥ・シーケンス(Seq2Seq)モデルとは異なり、並列コーパス上で訓練される際、テキストを完全に新規に生成するのではなく、強力な事前学習済み言語モデルを活用しつつ、迅速かつ正確な変換を学習できる点で、これらの手法ははるかに効果的であることが実証されている。このような考えに触発され、本研究では、事前学習済みTransformerベースのエンコーダを活用した、シンプルかつ効率的なテキスト簡略化(Text Simplification)システム「TST(Text Simplification via Tagging)」を提案する。本システムは、既存のシステムに対して単純なデータ拡張およびトレーニング・インファレンス段階での微調整を行うことで、大量の並列トレーニングデータに依存しなくても済み、出力に対する制御性が向上し、インファレンス速度も大幅に高速化される。実験の結果、最良のモデルは、タスクにおけるベンチマークテストデータセットで準最先端(near state-of-the-art)の性能を達成した。さらに、完全に非自己回帰的(non-autoregressive)な構造を採用しているため、現在の最先端テキスト簡略化システムと比較して、インファレンス速度が11倍以上高速化された。