Konvolutionale Netzwerke erneut translationsinvariant machen

Moderne Faltungsnetze sind nicht translationsinvariant, da kleine Verschiebungen der Eingabe zu erheblichen Änderungen am Ausgang führen können. Häufig verwendete Downsampling-Methoden, wie Max-Pooling, Strided-Faltung und Average-Pooling, ignorieren das Abtasttheorem. Die bekannte Lösung aus dem Bereich der Signalverarbeitung besteht darin, vor dem Downsampling ein Tiefpassfilter zur Anti-Aliasing-Anwendung einzusetzen. Allerdings führt die einfache Einbindung dieses Moduls in tiefe Netze zu einer Leistungsverschlechterung; daher wird es heute selten verwendet. Wir zeigen, dass es bei korrekter Integration mit bestehenden architektonischen Komponenten, wie Max-Pooling und Strided-Faltung, kompatibel ist. Wir beobachten eine \textit{verbesserte Genauigkeit} bei der Klassifizierung von ImageNet über mehrere gängige Architekturen hinweg, wie ResNet, DenseNet und MobileNet, was auf eine effektive Regularisierung hinweist. Darüber hinaus beobachten wir eine \textit{bessere Generalisierung}, insbesondere in Bezug auf Stabilität und Robustheit gegenüber Eingabeverfälschungen. Unsere Ergebnisse demonstrieren, dass diese klassische Signalverarbeitungstechnik in modernen tiefen Netzen unberechtigterweise vernachlässigt wurde. Der Code und Anti-Aliasing-Versionen beliebter Netze sind unter https://richzhang.github.io/antialiased-cnns/ verfügbar.