Rotationsequivariante Vektorfeldnetzwerke

In vielen Aufgaben der Computer Vision erwarten wir ein bestimmtes Verhalten der Ausgabe in Bezug auf Drehungen des Eingabebildes. Wenn diese Beziehung explizit kodiert wird, anstatt als eine beliebige Variation behandelt zu werden, verringert sich die Komplexität des Problems, was zu einer Reduktion der erforderlichen Modellgröße führt. In dieser Arbeit schlagen wir die Rotation Equivariant Vector Field Networks (RotEqNet) vor, eine Architektur von Faltungsneuronalen Netzen (CNNs), die Rotationsäquivalenz, -invarianz und -kovarianz kodiert. Jeder Faltungsfilter wird in mehreren Orientierungen angewendet und gibt ein Vektorfeld zurück, das den Betrag und den Winkel der besten Bewertung in jeder räumlichen Position darstellt. Wir entwickeln einen modifizierten Faltungsoperator, der auf dieser Darstellung basiert, um tiefere Architekturen zu erhalten. Wir testen RotEqNet an mehreren Problemen, die unterschiedliche Reaktionen auf die Drehung der Eingaben erfordern: Bildklassifikation, medizinische Bildsegmentierung, Orientierungsschätzung und Patch-Matching. In allen Fällen zeigen wir, dass RotEqNet äußerst kompakte Modelle hinsichtlich der Anzahl der Parameter bietet und Ergebnisse liefert, die denen von Netzwerken gleichen, die um Größenordnungen größer sind.