11日前

非英語テキスト簡素化の再検討：包括的な多言語ベンチマークの構築

Michael J. Ryan, Tarek Naous, Wei Xu

要約

近年、高品質で大規模な英語リソースの進展により、英語自動テキスト簡略化（ATS）研究の限界が大きく前進した。しかし、多くの言語における複雑な文と簡略化された文のペアをカバーする多言語評価ベンチマークの不足により、多言語テキスト簡略化に関する研究はあまり進んでいない。本論文では、12言語にわたり27のリソースを含み、170万を超える複雑文－簡略文ペアを有する「MultiSimベンチマーク」を紹介する。このベンチマークは、より効果的な多言語テキスト簡略化モデルおよび評価指標の開発を促進するものである。事前学習済み多言語言語モデルを用いたMultiSimを用いた実験から、非英語環境における多言語学習による顕著な性能向上が明らかになった。特に、ロシア語のゼロショット多言語転移において、低リソース言語への高い性能が観察された。さらに、BLOOM-176bを用いた少サンプルプロンプティングにより、参照簡略化と同等の品質が達成され、大多数の言語においてファインチューニング済みモデルを上回ることが示された。これらの結果は人間による評価を通じて検証された。