2ヶ月前

ニューラルネットワークを用いたシーケンス・トゥ・シーケンス学習

Ilya Sutskever; Oriol Vinyals; Quoc V. Le
ニューラルネットワークを用いたシーケンス・トゥ・シーケンス学習
要約

深層ニューラルネットワーク(DNNs)は、困難な学習タスクにおいて優れた性能を達成した強力なモデルです。大規模なラベル付き訓練データセットが利用可能な場合、DNNsは効果的に機能しますが、シーケンス間のマッピングには使用できません。本論文では、シーケンス構造に関する最小限の仮定に基づく一般的なエンドツーエンドのシーケンス学習アプローチを提案します。当該手法では、多層の長短期記憶(Long Short-Term Memory: LSTM)を使用して入力シーケンスを固定次元ベクトルにマッピングし、その後別の深層LSTMを使用してそのベクトルから目的のシーケンスをデコードします。主な結果として、WMT'14データセットにおける英語からフランス語への翻訳タスクで、LSTMによって生成された翻訳は全体テストセットに対してBLEUスコア34.8を達成しました。ただし、LSTMのBLEUスコアは未知語(out-of-vocabulary words)に対してペナルティが課されています。さらに、LSTMは長い文でも問題なく処理できました。比較のために、同じデータセット上でフレーズベースの統計的機械翻訳(SMT)システムはBLEUスコア33.3を達成しています。前述のSMTシステムによって生成された1000つの仮説をLSTMで再順位付けすると、BLEUスコアが36.5に上昇し、これはこのタスクにおけるこれまでの最高結果に近い値です。また、LSTMは単語順序に敏感でありながら能動態と受動態に対して相対的に不変である合理的なフレーズおよび文表現を学習しました。最後に、すべてのソース文(ターゲット文ではなく)の単語順序を逆転させることでLSTMの性能が大幅に向上することが確認されました。これは、ソース文とターゲット文との間に多くの短期依存関係が導入され、最適化問題が容易になったためです。

ニューラルネットワークを用いたシーケンス・トゥ・シーケンス学習 | 最新論文 | HyperAI超神経