2ヶ月前

地理的距離が新しいハイパーパラメータ:英語-ズールー語機械翻訳の最適な事前学習言語を見つけるための事例研究

Muhammad Umair Nasir; Innocent Amos Mchechesi
地理的距離が新しいハイパーパラメータ:英語-ズールー語機械翻訳の最適な事前学習言語を見つけるための事例研究
要約

低資源言語であるジンバブエ語(isiZulu)のデータセットやテキストリソースの限られた可用性から、事前学習済みモデルから知識を活用して低資源機械翻訳を改善する必要性が大きく存在しています。さらに、形態論的に豊かな言語の複雑さを処理する技術の不足により、多くの広く話されているアフリカ言語が置き去りにされるという不均衡な翻訳モデル開発が進んでいます。本研究では、英語-ジンバブエ語翻訳フレームワークにおける転移学習の潜在的な利点を探求しました。結果は、近縁言語からの転移学習が低資源翻訳モデルの性能向上に価値があることを示しており、今後の低資源翻訳における重要な戦略となることが期待されます。我々は8つの異なる言語コーパス(そのうち1つは多言語コーパス)から結果を得ました。その中で、ジンバブエ語-コサ語(isiXhosa-isiZulu)がすべての言語を上回り、テストセットでのBLEUスコアは8.56となり、多言語コーパスで事前学習されたモデルよりも2.73高くなりました。また、新しい係数であるナシールの地理的距離係数(Nasir's Geographical Distance Coefficient: NGDC)を導出し、これにより事前学習済みモデルに使用する言語を選択しやすくなりました。NGDCによれば、コサ語(isiXhosa)が事前学習済みモデルに選択されるべき言語であることが示されました。

地理的距離が新しいハイパーパラメータ:英語-ズールー語機械翻訳の最適な事前学習言語を見つけるための事例研究 | 最新論文 | HyperAI超神経