2ヶ月前

普遍的な注意:シーケンス・ツー・シーケンス予測のための2次元畳み込みニューラルネットワーク

Maha Elbayad; Laurent Besacier; Jakob Verbeek
普遍的な注意:シーケンス・ツー・シーケンス予測のための2次元畳み込みニューラルネットワーク
要約

現在の最先端の機械翻訳システムは、エンコーダー-デコーダー構造に基づいています。この構造では、まず入力シーケンスをエンコードし、その後、そのエンコーディングに基づいて出力シーケンスを生成します。これらは、デコーダーの状態に応じてソーストークンの固定されたエンコーディングを再結合するアテンションメカニズムと接続されています。本研究では、代わりに両方のシーケンスに対して単一の2次元畳み込みニューラルネットワーク(2D Convolutional Neural Network)を使用する代替アプローチを提案します。我々のネットワークの各層は、これまでに生成された出力シーケンスに基づいてソーストークンを再エンコードします。したがって、アテンションのような特性はネットワーク全体に広く存在します。我々のモデルは優れた結果を示し、概念的にはより単純でパラメータ数も少ないながら、最先端のエンコーダー-デコーダーシステムを上回る性能を発揮しています。

普遍的な注意:シーケンス・ツー・シーケンス予測のための2次元畳み込みニューラルネットワーク | 最新論文 | HyperAI超神経