Erweitern von Faltungsnetzwerken durch auf Aufmerksamkeit basierende Aggregation

Wir zeigen, wie jeder konvolutionale Netzwerk durch eine auf Aufmerksamkeit basierende globale Karte zur Realisierung nicht-lokaler Inferenz erweitert werden kann. Wir ersetzen die letzte Durchschnitts-Pooling-Schicht durch eine auf Aufmerksamkeit basierende Aggregations-Schicht, die einer einzelnen Transformer-Block-Struktur ähnelt und gewichtet, wie die Patche bei der Klassifikationsentscheidung beteiligt sind. Diese gelernte Aggregations-Schicht wird mit einem einfachen, patchbasierten konvolutionalen Netzwerk verbunden, das durch lediglich zwei Parameter parametrisiert ist (Breite und Tiefe). Im Gegensatz zu einer pyramidenförmigen Architektur behält diese Architekturfamilie die ursprüngliche Patch-Auflösung über alle Schichten hinweg bei. Unseren Experimenten auf verschiedenen Aufgaben des maschinellen Sehens – wie Objektklassifikation, Bildsegmentierung und Objektdetektion – zufolge erzielt sie überraschend wettbewerbsfähige Kompromisse zwischen Genauigkeit und Komplexität, insbesondere hinsichtlich des Speicherverbrauchs.