17日前
BigTranslate:100言語以上の多言語翻訳機能を搭載した大規模言語モデルの拡張
Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong

要約
大規模言語モデル(LLM)は、さまざまな自然言語間の翻訳性能において有望な成果を示している。しかし、多くのLLM、特にオープンソースのモデル(例:BLOOMやLLaMA)は英語を基盤としており、対応可能な自然言語は数十語にとどまっている。その結果、LLMが言語翻訳において有する潜在能力はまだ十分に探求されていない。本研究では、20言語のみをカバーするLLaMAを基盤として、100語以上に及ぶ多言語翻訳能力を付与する「BigTranslate」を提案する。BigTranslateはLLaMA-13Bを基盤とし、3段階にわたる最適化を実施している。第一段階では、大量の中国語単言語データを用いてLLaMAの継続学習を実施した。第二段階では、102種類の自然言語をカバーする大規模な並列データセットを用いて、さらにモデルを学習させた。第三段階では、多言語翻訳指示を用いたインストラクションチューニングにより、基盤モデルを最適化し、最終的にBigTranslateモデルを構築した。多言語翻訳に関する初期実験の結果、BigTranslateは多くの言語においてChatGPTやGoogle Translateと同等の性能を示し、特に8つの言語ペアではChatGPTを上回る結果を得た。本研究ではBigTranslateモデルを公開し、今後の研究進展に貢献することを期待している。