HyperAIHyperAI

Command Palette

Search for a command to run...

地理的距離が新しいハイパーパラメータ:英語-ズールー語機械翻訳の最適な事前学習言語を見つけるための事例研究

Muhammad Umair Nasir; Innocent Amos Mchechesi

概要

低資源言語であるジンバブエ語(isiZulu)のデータセットやテキストリソースの限られた可用性から、事前学習済みモデルから知識を活用して低資源機械翻訳を改善する必要性が大きく存在しています。さらに、形態論的に豊かな言語の複雑さを処理する技術の不足により、多くの広く話されているアフリカ言語が置き去りにされるという不均衡な翻訳モデル開発が進んでいます。本研究では、英語-ジンバブエ語翻訳フレームワークにおける転移学習の潜在的な利点を探求しました。結果は、近縁言語からの転移学習が低資源翻訳モデルの性能向上に価値があることを示しており、今後の低資源翻訳における重要な戦略となることが期待されます。我々は8つの異なる言語コーパス(そのうち1つは多言語コーパス)から結果を得ました。その中で、ジンバブエ語-コサ語(isiXhosa-isiZulu)がすべての言語を上回り、テストセットでのBLEUスコアは8.56となり、多言語コーパスで事前学習されたモデルよりも2.73高くなりました。また、新しい係数であるナシールの地理的距離係数(Nasir's Geographical Distance Coefficient: NGDC)を導出し、これにより事前学習済みモデルに使用する言語を選択しやすくなりました。NGDCによれば、コサ語(isiXhosa)が事前学習済みモデルに選択されるべき言語であることが示されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています