Nicht-lokale Neuronale Netze

Sowohl Faltungsvorgänge (convolutional operations) als auch rekurrente Vorgänge sind Bausteine, die jeweils eine lokale Nachbarschaft verarbeiten. In dieser Arbeit stellen wir nicht-lokale Vorgänge als eine generische Familie von Bausteinen vor, die dazu dienen, langreichweitige Abhängigkeiten zu erfassen. Inspiriert durch die klassische Methode der nicht-lokalen Mittelwerte in der Computer Vision berechnet unser nicht-lokaler Vorgang die Reaktion an einer Position als ein gewichtete Summe der Merkmale aller Positionen. Dieser Baustein kann in viele Computer-Vision-Architekturen integriert werden. Bei der Aufgabe der Video-Klassifikation können unsere nicht-lokalen Modelle, selbst ohne zusätzliche Verbesserungen, mit den aktuellen Wettbewerbsgewinnern sowohl auf dem Kinetics- als auch auf dem Charades-Datensatz konkurrieren oder diese sogar übertreffen. Im Bereich der statischen Bilderkennung verbessern unsere nicht-lokalen Modelle die Objekterkennung/Segmentierung und die Pose-Schätzung bei den COCO-Aufgaben. Der Quellcode ist unter https://github.com/facebookresearch/video-nonlocal-net verfügbar.