
要約
注意機構は、RNNやCNNを補助する手段として利用されてきました。しかし、Transformer(Vaswaniら、2017)は、注目メカニズムのみを使用することで機械翻訳において最先端の性能を達成し、訓練時間も大幅に削減しました。このTransformerの成功に触発され、Directional Self Attention Network(Shenら、2017)が提案されました。これは完全に注目メカニズムに基づく文エンコーダで、文内の前向きと後ろ向きの方向性情報を使用して様々なデータに対して良好な性能を示しました。しかし、彼らの研究では単語間距離という重要な特徴が全く考慮されていませんでした。これはローカル依存関係を学習し、入力テキストの文脈を理解する際には重要な要素です。そこで我々はDistance-based Self-Attention Networkを提案します。このモデルは単純な距離マスクを使用することで単語間距離を考慮し、注目メカニズムが本来持っているグローバル依存関係モデリング能力を失うことなくローカル依存関係をモデル化します。我々のモデルはNLIデータに対して良好な性能を示し、SNLIデータでは新たな最先端の結果を記録しています。さらに、長い文やドキュメントに対する処理能力にも優れていることを示しています。