2ヶ月前
キャラクタレベルのデコーダーを用いたニューラル機械翻訳における明示的なセグメンテーションなしの手法
Junyoung Chung; Kyunghyun Cho; Yoshua Bengio

要約
既存の機械翻訳システム、フレーズベースも神経망ベースも、明示的なセグメンテーションを伴う単語レベルのモデリングにほぼ完全に依存してきました。本論文では、根本的な問いを投げかけます:神経機械翻訳は、明示的なセグメンテーションなしで文字列を生成できるでしょうか?この問いに対する答えを得るため、WMT'15の並行コーパスを使用して、サブワードレベルのエンコーダと文字レベルのデコーダを持つアテンションベースのエンコーダ-デコーダモデルを4つの言語ペア(英語-チェコ語、英語-ドイツ語、英語-ロシア語、英語-フィンランド語)で評価しました。実験結果は、文字レベルのデコーダを持つモデルがサブワードレベルのデコーダを持つモデルよりも4つの言語ペア全てにおいて優れていることを示しています。さらに、文字レベルのデコーダを持つ神経モデルのアンサンブルは、英語-チェコ語、英語-ドイツ語、英語-フィンランド語において最先端の非神経機械翻訳システムを上回り、英語-ロシア語においても同等の性能を発揮しました。