DIANet: Netzwerk mit dichter und impliziter Aufmerksamkeit

Aufmerksamkeitsnetzwerke haben die Leistung bei verschiedenen visuellen Aufgaben erfolgreich verbessert. Frühere Arbeiten legten den Schwerpunkt darauf, neue Aufmerksamkeitsmodule zu entwerfen und diese einzeln in Netzwerke zu integrieren. In unserem Paper schlagen wir einen neuartigen und einfachen Rahmen vor, der ein Aufmerksamkeitsmodul über verschiedene Netzwerk-Schichten teilt, um die Integration von schichtweise Informationen zu fördern. Dieses parametersharing-Modul wird als Dense-and-Implicit-Attention (DIA)-Einheit bezeichnet. Viele verschiedene Module können in der DIA-Einheit verwendet werden. Da Long Short Term Memory (LSTM) die Fähigkeit hat, langfristige Abhängigkeiten zu erfassen, konzentrieren wir uns auf den Fall, wenn die DIA-Einheit eine modifizierte LSTM (als DIA-LSTM bezeichnet) ist. Experimente mit Benchmark-Datensätzen zeigen, dass die DIA-LSTM-Einheit in der Lage ist, schichtweise Merkmalsinterrelationen hervorzuheben und dies zu einer erheblichen Verbesserung der Bildklassifikationsgenauigkeit führt. Wir demonstrieren ferner empirisch, dass die DIA-LSTM eine starke Regularisierungsfähigkeit zur Stabilisierung des Trainings tiefer Netzwerke besitzt, wie durch Experimente gezeigt wird, bei denen Skip-Verbindungen oder Batch-Normalisierung im gesamten Residualnetzwerk entfernt wurden. Der Code wurde unter https://github.com/gbup-group/DIANet veröffentlicht.