17日前

機械翻訳におけるパラダイムシフト：大規模言語モデルの翻訳性能向上

Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla

要約

生成型大規模言語モデル（LLM）は、自然言語処理（NLP）のさまざまなタスクにおいて顕著な進展を遂げている。しかし、これらの進展は翻訳タスクには十分に反映されておらず、特に中規模モデル（7Bまたは13Bパラメータ）においては、従来の教師ありエンコーダデコーダ型翻訳モデルに比べて依然として遅れをとっている。これまでの研究では、こうした中規模LLMの翻訳能力を向上させる試みが行われてきたが、その向上幅は限定的であった。本研究では、翻訳タスクに特化した新しいファインチューニング手法を提案する。この手法は、従来の翻訳モデルが依存する大量の並列データを必要としないため、新たなアプローチを可能にする。本手法は2段階のファインチューニングから構成される：まず単言語データ上で初期ファインチューニングを行い、その後、高品質な少量並列データを用いた後続のファインチューニングを行う。この戦略によって開発されたLLMを「Advanced Language Model-based trAnslator（ALMA）」と命名する。基盤モデルとしてLLaMA-2を採用した実験の結果、WMT'21（2方向）およびWMT'22（8方向）のテストデータセットにおける10の翻訳方向において、ゼロショット性能に対して平均で12以上のBLEU点および12以上のCOMET点の向上を達成した。この性能は、これまでのすべての先行研究を大きく上回り、パラメータ数が7Bまたは13Bというわずかな規模ながら、NLLB-54BモデルやGPT-3.5-text-davinci-003をも凌駕する。本手法は、機械翻訳における新たな学習パラダイムの基盤を確立した。