Erwartung-Maximierung-Attention-Netzwerke für semantische Segmentierung

Das Selbst-Aufmerksamkeitsmechanismus (Self-Attention Mechanism) wird in verschiedenen Aufgaben weitgehend eingesetzt. Er ist darauf ausgelegt, die Darstellung jeder Position durch eine gewichtete Summe der Merkmale aller Positionen zu berechnen. Somit kann er langreichweitige Beziehungen für Computer-Vision-Aufgaben erfassen. Allerdings ist er rechenaufwendig, da die Aufmerksamkeitskarten (attention maps) in Bezug auf alle anderen Positionen berechnet werden. In dieser Arbeit formulieren wir den Aufmerksamkeitsmechanismus im Sinne eines Erwartung-Maximierung-Verfahrens und schätzen iterativ eine viel kompaktere Menge von Basen, auf denen die Aufmerksamkeitskarten berechnet werden. Durch eine gewichtete Summation über diese Basen wird die resultierende Darstellung niedrig-rangig und reduziert störende Informationen aus der Eingabe. Das vorgeschlagene Modul zur Erwartung-Maximierung-Aufmerksamkeit (Expectation-Maximization Attention, EMA) ist robust gegenüber der Varianz der Eingabe und zeichnet sich auch durch geringeren Speicher- und Rechenbedarf aus. Zudem haben wir Methoden zur Wartung und Normalisierung der Basen etabliert, um den Trainingsprozess zu stabilisieren. Wir führen umfangreiche Experimente auf gängigen Benchmarks für semantische Segmentierung durch, darunter PASCAL VOC, PASCAL Context und COCO Stuff, bei denen wir neue Rekordwerte erzielen.