2ヶ月前

サブワード単位を用いた稀少語のニューラル機械翻訳

Rico Sennrich; Barry Haddow; Alexandra Birch
サブワード単位を用いた稀少語のニューラル機械翻訳
要約

ニューラル機械翻訳(NMT)モデルは通常、固定された語彙で動作しますが、翻訳はオープンボキャブラリ問題です。従来の研究では、未知語の翻訳を辞書に依存する方法で対処していました。本論文では、より単純かつ効果的なアプローチを提案し、NMTモデルがオープンボキャブラリ翻訳を行う能力を持つように、頻度の低い単語や未知語をサブワードユニットの列としてエンコードすることを可能にします。これは、さまざまな単語クラスが単語よりも小さな単位を通じて翻訳可能であるという直感に基づいています。例えば、固有名詞(文字コピーまたは音写により)、複合語(合成翻訳により)、そして同源語と外来語(音韻変換や形態素変換により)などが挙げられます。私たちは異なる単語分割技術の適切性について議論し、単純な文字n-グラムモデルやバイトペアエンコーディング圧縮アルゴリズムに基づく分割技術を含めます。実験結果から、サブワードモデルはWMT 15の英独および英露翻訳タスクにおいてバックオフ辞書ベースラインよりもそれぞれ1.1ポイントと1.3ポイントBLEUスコアを改善することが示されました。

サブワード単位を用いた稀少語のニューラル機械翻訳 | 最新論文 | HyperAI超神経