Réseau de Self-Attention Renforcé : un Hybride d'Attention Dure et Souple pour la Modélisation de Séquences

De nombreuses tâches de traitement du langage naturel s'appuient uniquement sur des dépendances rares entre quelques jetons dans une phrase. Les mécanismes d'attention douce montrent des performances prometteuses pour modéliser les dépendances locales/globales par des probabilités douces entre chaque paire de jetons, mais ils ne sont pas efficaces et performants lorsqu'ils sont appliqués à de longues phrases. Par contraste, les mécanismes d'attention dure sélectionnent directement un sous-ensemble de jetons, mais ils sont difficiles et inefficaces à entraîner en raison de leur nature combinatoire. Dans cet article, nous intégrons l'attention douce et l'attention dure dans un modèle unique de fusion de contexte, appelé « reinforced self-attention (ReSA) » (renforcement de l'auto-attention), afin de tirer mutuellement profit de leurs avantages respectifs. Dans le cadre du ReSA, l'attention dure réduit une séquence pour que l'auto-attention douce puisse la traiter, tandis que l'attention douce retourne des signaux de récompense pour faciliter l'entraînement de l'attention dure. À cette fin, nous avons développé un nouveau mécanisme d'attention dure appelé « reinforced sequence sampling (RSS) » (échantillonnage séquentiel renforcé), qui sélectionne les jetons en parallèle et est entraîné par gradient de politique. En utilisant deux modules RSS, le ReSA extrait efficacement les dépendances rares entre chaque paire de jetons sélectionnés. Nous proposons enfin un modèle d'encodage de phrases sans RNN/CNN, appelé « reinforced self-attention network (ReSAN) » (réseau d'auto-attention renforcée), basé uniquement sur le ReSA. Ce modèle atteint des performances au niveau de l'état de l'art sur les jeux de données Stanford Natural Language Inference (SNLI) et Sentences Involving Compositional Knowledge (SICK).