X-volution: Zur Vereinheitlichung von Faltung und Self-Attention

Faltung und Self-Attention fungieren als zwei grundlegende Bausteine in tiefen neuronalen Netzen, wobei die Faltung lokale Bildmerkmale linear extrahiert, während der Self-Attention-Operator hochordnungsmäßige, nicht-lokale Kontextbeziehungen kodiert. Obwohl sie ursprünglich komplementär sind – jeweils erste und höhere Ordnung – fehlt den aktuellen Architekturen, wie CNNs oder Transformers, ein konsistenter Ansatz, um beide Operationen gleichzeitig in einem einzigen Berechnungsmodul zu integrieren. Dies liegt an ihren heterogenen Berechnungsmustern und der hohen Rechenlast globaler Dot-Product-Operationen, die für visuelle Aufgaben besonders belastend sind. In dieser Arbeit leiten wir theoretisch ein Approximationsverfahren für globale Self-Attention ab, das die Self-Attention mittels Faltung auf transformierten Merkmalen approximiert. Auf Basis dieser Approximation entwickeln wir ein mehrfach verzweigtes elementares Modul, das sowohl Faltung als auch Self-Attention integriert und somit sowohl lokale als auch nicht-lokale Merkmalsinteraktionen einheitlich abbilden kann. Wichtig ist, dass das mehrfach verzweigte Modul nach dem Training durch strukturelle Re-Parameterisierung bedingt in eine einzige Standard-Faltungsoperation umgewandelt werden kann, wodurch ein reiner Faltungs-ähnlicher Operator entsteht, der X-volution genannt wird und als atomare Operation in beliebige moderne Netzwerke integriert werden kann. Umfangreiche Experimente zeigen, dass das vorgeschlagene X-volution signifikante Verbesserungen bei der visuellen Wahrnehmung erzielt (zusätzliche +1,2 % Top-1-Accuracy bei der ImageNet-Klassifikation, +1,7 Box AP und +1,5 Mask AP bei der COCO-Detektion und -Segmentierung).