16日前

DEPLAIN:文節および文書簡素化のための平易語への内言語翻訳を備えたドイツ語並列コーパス

Regina Stodden, Omar Momen, Laura Kallmeyer
DEPLAIN:文節および文書簡素化のための平易語への内言語翻訳を備えたドイツ語並列コーパス
要約

テキスト簡略化(Text simplification)は、複雑な元テキストの文書や文を、対象読者に適した形に簡略化する「内言語翻訳(intralingual translation)」の一種である。自動テキスト簡略化システムの性能は、学習および評価に用いる並列データの質に大きく依存する。ドイツ語における文レベルおよびドキュメントレベルの簡略化技術の進展を図るため、本稿では「DEplain」という新しい並列データセットを提案する。DEplainは、専門的に作成され、手作業で対応付けられた「平易ドイツ語(plain German)」(ドイツ語では「Einfache Sprache」)による簡略化文を含む。本データセットは、ニュース領域(約500ドキュメントペア、約13,000文ペア)とウェブ領域のコーパス(約150対応ドキュメント、約2,000対応文ペア)から構成される。さらに、非対応または公開予定の並列ドキュメントの統合を促進するため、ウェブハーベスターの開発と自動対応手法の検証を進めている。このアプローチにより、ウェブ領域コーパスは動的に拡張されており、現在は約750ドキュメントペア、約3,500対応文ペアにまで拡大されている。本研究では、DEplainを用いてTransformerベースのseq2seqモデルを訓練することで、有望な結果が得られることを示している。本データセット、ドイツ語向けに適応した対応手法、ウェブハーベスター、および学習済みモデルは、以下のURLで公開されている:https://github.com/rstodden/DEPlain。

DEPLAIN:文節および文書簡素化のための平易語への内言語翻訳を備えたドイツ語並列コーパス | 最新論文 | HyperAI超神経