HyperAIHyperAI

Command Palette

Search for a command to run...

機械翻訳におけるパラダイムシフト:大規模言語モデルの翻訳性能向上

Haoran Xu Young Jin Kim Amr Sharaf Hany Hassan Awadalla

概要

生成型大規模言語モデル(LLM)は、自然言語処理(NLP)のさまざまなタスクにおいて顕著な進展を遂げている。しかし、これらの進展は翻訳タスクには十分に反映されておらず、特に中規模モデル(7Bまたは13Bパラメータ)においては、従来の教師ありエンコーダデコーダ型翻訳モデルに比べて依然として遅れをとっている。これまでの研究では、こうした中規模LLMの翻訳能力を向上させる試みが行われてきたが、その向上幅は限定的であった。本研究では、翻訳タスクに特化した新しいファインチューニング手法を提案する。この手法は、従来の翻訳モデルが依存する大量の並列データを必要としないため、新たなアプローチを可能にする。本手法は2段階のファインチューニングから構成される:まず単言語データ上で初期ファインチューニングを行い、その後、高品質な少量並列データを用いた後続のファインチューニングを行う。この戦略によって開発されたLLMを「Advanced Language Model-based trAnslator(ALMA)」と命名する。基盤モデルとしてLLaMA-2を採用した実験の結果、WMT'21(2方向)およびWMT'22(8方向)のテストデータセットにおける10の翻訳方向において、ゼロショット性能に対して平均で12以上のBLEU点および12以上のCOMET点の向上を達成した。この性能は、これまでのすべての先行研究を大きく上回り、パラメータ数が7Bまたは13Bというわずかな規模ながら、NLLB-54BモデルやGPT-3.5-text-davinci-003をも凌駕する。本手法は、機械翻訳における新たな学習パラダイムの基盤を確立した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています