2ヶ月前
畳み込みシーケンス・ツー・シーケンス学習
Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin

要約
現在のシーケンス・ツー・シーケンス学習の一般的なアプローチは、入力シーケンスをリカレントニューラルネットワークを介して可変長の出力シーケンスにマッピングする方法です。本研究では、完全に畳み込みニューラルネットワークに基づくアーキテクチャを提案します。リカレントモデルと比較すると、訓練中にすべての要素に対する計算を完全に並列化でき、非線形関数の数が固定され且つ入力長さに依存しないため、最適化が容易になります。ゲート付き線形ユニット(Gated Linear Units)を使用することで勾配伝播が容易になり、各デコーダ層には個別の注意モジュールを装備しています。我々のモデルはWuら(2016)の深層LSTM設定よりも精度が高く、WMT'14英語-ドイツ語翻訳およびWMT'14英語-フランス語翻訳において、GPUやCPU上で一桁速い速度で処理を行います。