2ヶ月前

両者の最良を組み合わせる：ニューラル機械翻訳の最近の進歩を融合する

Mia Xu Chen; Orhan Firat; Ankur Bapna; Melvin Johnson; Wolfgang Macherey; George Foster; Llion Jones; Niki Parmar; Mike Schuster; Zhifeng Chen; Yonghui Wu; Macduff Hughes

論文の詳細を見る

要約

過去の1年間で、機械翻訳（Machine Translation: MT）におけるシーケンス・ツー・シーケンス（sequence-to-sequence: seq2seq）モデリングに急速な進展が見られました。従来のRNNベースのMT手法は最初に、畳み込み型seq2seqモデルによって上回られ、その後、より最近開発されたTransformerモデルによってさらに上回られました。これらの新しい手法それぞれは、基本的なアーキテクチャと一連のモデリングおよび学習技術から構成されており、原則として他のseq2seqアーキテクチャにも適用可能です。本論文では、新しいアーキテクチャとそれらに伴う技術を2つの方法で分けて考察します。まず、いくつかの重要なモデリングおよび学習技術を特定し、それらをRNNアーキテクチャに適用することで、WMT'14英仏翻訳タスクと英独翻訳タスクにおいて3つの基本的なアーキテクチャ全てを上回る新たなRNMT+モデルを開発しました。次に、各基本的なseq2seqアーキテクチャの特性を分析し、それらの長所を組み合わせることを目指した新しいハイブリッドアーキテクチャを設計しました。我々のハイブリッドモデルはさらなる改善を達成し、両方のベンチマークデータセットにおいてRNMT+モデルを上回る結果を得ています。