EleAtt-RNN : Ajouter de l'Attention aux Neurones dans les Réseaux de Neurones Récurents

Les réseaux de neurones récurrents (RNNs) sont capables de modéliser les dépendances temporelles des données séquentielles complexes. En général, les structures actuelles des RNNs tendent à se concentrer sur le contrôle des contributions de l'information actuelle et précédente. Cependant, l'exploration des différents niveaux d'importance des éléments au sein d'un vecteur d'entrée est souvent négligée. Nous proposons une porte d'attention élément par élément (Element-wise-Attention Gate, EleAttG) simple mais efficace, qui peut être facilement ajoutée à un bloc RNN (par exemple, tous les neurones RNN dans une couche RNN), afin d'octroyer aux neurones RNN une capacité d'attention. Pour un bloc RNN, une EleAttG est utilisée pour moduler l'entrée de manière adaptative en attribuant différents niveaux d'importance, c'est-à-dire de l'attention, à chaque élément/dimension de l'entrée. Nous désignons un bloc RNN équipé d'une EleAttG comme un bloc EleAtt-RNN. Au lieu de moduler l'entrée dans son ensemble, la EleAttG module l'entrée avec une granularité fine, c'est-à-dire élément par élément, et cette modulation est adaptative au contenu. La porte d'attention proposée (EleAttG), en tant qu’unité fondamentale supplémentaire, est générale et peut être appliquée à toute structure de RNN, par exemple, aux RNN standards, aux mémoires à court et long terme (Long Short-Term Memory, LSTM) ou aux unités récurrentes à portes (Gated Recurrent Unit, GRU). Nous démontrons l’efficacité du EleAtt-RNN proposé en l’appliquant à différentes tâches telles que la reconnaissance d’actions à partir de données basées sur le squelette et de vidéos RGB, la reconnaissance de gestes et la classification séquentielle MNIST. Les expériences montrent que l’ajout de capacités attentionnelles via les EleAttGs aux blocs RNN améliore considérablement les performances des RNNs.