EleAtt-RNN: Aufmerksamkeit in Neuronen rekurrenter neuronaler Netze einfügen

Rekurrente neuronale Netzwerke (RNNs) sind in der Lage, zeitliche Abhängigkeiten komplexer sequenzieller Daten zu modellieren. In der Regel konzentrieren sich derzeit verfügbare RNN-Architekturen darauf, die Beiträge von aktueller und vorheriger Information zu steuern. Die Berücksichtigung unterschiedlicher Bedeutungsgrade verschiedener Elemente innerhalb eines Eingabevektors wird jedoch häufig vernachlässigt. Wir schlagen einen einfachen, aber effektiven Element-weisen Aufmerksamkeits-Gate (EleAttG) vor, der problemlos in einen RNN-Block (z. B. alle RNN-Neuronen einer RNN-Schicht) integriert werden kann, um den RNN-Neuronen die Fähigkeit zur Aufmerksamkeit zu verleihen. Für einen RNN-Block wird ein EleAttG eingesetzt, um die Eingabe adaptiv zu modulieren, indem jedem Element/Dimension der Eingabe unterschiedliche Gewichtungen – also Aufmerksamkeitswerte – zugewiesen werden. Wir bezeichnen einen RNN-Block, der mit einem EleAttG ausgestattet ist, als EleAtt-RNN-Block. Im Gegensatz zur Modulation der Eingabe als Ganzes erfolgt die Modulation durch den EleAttG auf feiner Granularität, d. h. elementweise, und ist inhaltsadaptiv. Der vorgeschlagene EleAttG fungiert als zusätzliche grundlegende Einheit und ist allgemein anwendbar auf beliebige RNN-Architekturen, beispielsweise standard RNN, Long Short-Term Memory (LSTM) oder Gated Recurrent Unit (GRU). Die Wirksamkeit des vorgeschlagenen EleAtt-RNN wird anhand verschiedener Aufgaben demonstriert, darunter Aktionserkennung sowohl aus skelettbasierten Daten als auch aus RGB-Videos, Gestenerkennung sowie die Klassifikation sequenzieller MNIST-Daten. Experimente zeigen, dass die Hinzufügung von Aufmerksamkeit mittels EleAttG-Blöcken die Leistungsfähigkeit von RNNs signifikant verbessert.