HyperAIHyperAI

Command Palette

Search for a command to run...

単一言語データを用いたニューラル機械翻訳モデルの改善

Rico Sennrich Barry Haddow Alexandra Birch

概要

ニューラル機械翻訳(NMT)は、並列データのみを使用して訓練を行うことで、いくつかの言語ペアにおいて最先端の性能を達成しています。一方で、ターゲット側の単一言語データは、フレーズベースの統計的機械翻訳において流暢性向上に重要な役割を果たしており、本研究では単一言語データをNMTに活用する方法について調査を行いました。従来の研究では、NMTモデルと別に訓練された言語モデルを組み合わせる手法が採用されていましたが、我々はエンコーダー-デコーダー型NMTアーキテクチャが既に言語モデルと同じ情報を学習する能力を持っていることに注目し、ニューラルネットワークのアーキテクチャを変更せずに単一言語データで訓練するための戦略を探求しました。単一言語訓練データを自動バック翻訳によってペアリングすることで、追加的な並列訓練データとして扱うことができ、WMT 15タスクにおける英独双方向翻訳(+2.8-3.7 BLEU)や低リソースなIWSLT 14タスクにおけるトルコ語→英語翻訳(+2.1-3.4 BLEU)で大幅な改善が得られました。これらの結果により新たな最先端性能が達成されました。また、ドメイン内での単一言語および並列データによる微調整がIWSLT 15タスクにおける英語→ドイツ語翻訳でも大幅な改善につながることを示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています