2ヶ月前

MUSS: 複数言語の無監督文簡素化による同義表現の掘り起こし

Louis Martin; Angela Fan; Éric de la Clergerie; Antoine Bordes; Benoît Sagot
MUSS: 複数言語の無監督文簡素化による同義表現の掘り起こし
要約

文の単純化における進歩は、ラベル付き並列単純化データの不足により阻害されてきました。特に英語以外の言語ではその傾向が顕著です。本研究では、MUSS(Multilingual Unsupervised Sentence Simplification)と呼ばれる多言語非監督文単純化システムを導入します。MUSSは、適切な単純化データではなく、文レベルの言い換えデータを使用して強力なモデルを訓練する新しいアプローチを採用しています。これらのモデルは、非監督事前学習と制御可能な生成メカニズムを活用し、推論時に長さや語彙の複雑さなどの属性を柔軟に調整することができます。さらに、意味論的な文埋め込みを使用してCommon Crawlから任意の言語の言い換えデータを抽出する方法を提示します。これにより、ラベル付きデータの必要性が解消されます。我々は、英語、フランス語、スペイン語の単純化ベンチマークでこのアプローチを評価し、ラベル付き単純化データを使用していないにもかかわらず、従来の最良の監督結果に匹敵または上回る性能を示しました。また、ラベル付き単純化データを取り入れることで最先端技術をさらに推進しています。

MUSS: 複数言語の無監督文簡素化による同義表現の掘り起こし | 最新論文 | HyperAI超神経