17日前
BERT、mBERT、またはBiBERT?ニューラル機械翻訳における文脈依存埋め込みの検討
Haoran Xu, Benjamin Van Durme, Kenton Murray

要約
BERTのようなマスク言語モデルを用いた双方向エンコーダーが、多数の自然言語処理タスクにおいて成功を収めたことから、研究者たちはこれらの事前学習モデルをニューラル機械翻訳(NMT)システムに組み込む試みを進めている。しかし、事前学習モデルを統合するための提案手法は非自明であり、主にBERTに焦点が当たっている。その結果、他の事前学習モデルが翻訳性能に与える影響についての比較はほとんど行われていない。本論文では、適切に設計された二語対応の事前学習言語モデル(BiBERTと呼ぶ)の出力(文脈依存的埋め込み)を、NMTエンコーダーの入力として単純に使用するだけで、最先端の翻訳性能を達成できることを示す。さらに、文脈依存的埋め込みの効果的な活用を確保するため、確率的レイヤー選択アプローチと二方向翻訳モデルの概念を提案する。バックトランスレーションを用いない状況下でも、最良のモデルはIWSLT'14データセットにおいてEn→De翻訳で30.45、De→En翻訳で38.61のBLEUスコアを達成し、WMT'14データセットではEn→Deで31.26、De→Enで34.94のBLEUスコアを記録した。これらは、これまでに発表されたすべての数値を上回る成果である。