HyperAIHyperAI

Command Palette

Search for a command to run...

非英語テキスト簡素化の再検討:包括的な多言語ベンチマークの構築

Michael J. Ryan Tarek Naous Wei Xu

概要

近年、高品質で大規模な英語リソースの進展により、英語自動テキスト簡略化(ATS)研究の限界が大きく前進した。しかし、多くの言語における複雑な文と簡略化された文のペアをカバーする多言語評価ベンチマークの不足により、多言語テキスト簡略化に関する研究はあまり進んでいない。本論文では、12言語にわたり27のリソースを含み、170万を超える複雑文-簡略文ペアを有する「MultiSimベンチマーク」を紹介する。このベンチマークは、より効果的な多言語テキスト簡略化モデルおよび評価指標の開発を促進するものである。事前学習済み多言語言語モデルを用いたMultiSimを用いた実験から、非英語環境における多言語学習による顕著な性能向上が明らかになった。特に、ロシア語のゼロショット多言語転移において、低リソース言語への高い性能が観察された。さらに、BLOOM-176bを用いた少サンプルプロンプティングにより、参照簡略化と同等の品質が達成され、大多数の言語においてファインチューニング済みモデルを上回ることが示された。これらの結果は人間による評価を通じて検証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています