Réseau d'auto-attention basé sur la distance pour l'inférence en langage naturel

Le mécanisme d'attention a été utilisé comme moyen auxiliaire pour aider les RNN ou les CNN. Cependant, le Transformer (Vaswani et al., 2017) a récemment enregistré des performances de pointe en traduction automatique avec une réduction drastique du temps d'entraînement en utilisant uniquement l'attention. Inspirés par le Transformer, Shen et al. (2017) ont proposé le Réseau d'Auto-Attention Directionnelle (Directional Self Attention Network), un encodeur de phrases entièrement basé sur l'attention. Il a montré de bonnes performances avec diverses données en utilisant des informations directionnelles avant et arrière dans une phrase. Cependant, dans leur étude, la distance entre les mots, une caractéristique importante pour apprendre la dépendance locale afin d'aider à comprendre le contexte du texte d'entrée, n'a pas été prise en compte. Nous proposons un Réseau d'Auto-Attention Basé sur la Distance (Distance-based Self-Attention Network), qui considère la distance entre les mots en utilisant un masque de distance simple afin de modéliser la dépendance locale sans perdre la capacité inhérente de l'attention à modéliser la dépendance globale. Notre modèle montre de bonnes performances avec des données NLI et établit un nouveau résultat de pointe avec des données SNLI. De plus, nous montrons que notre modèle possède une force particulière pour traiter les phrases ou documents longs.