PushPull-Net: Inhibitionsgetriebenes ResNet, robust gegenüber Bildverzerrungen

Wir stellen eine neuartige rechnerische Einheit namens PushPull-Conv in der ersten Schicht einer ResNet-Architektur vor, die sich an dem anti-phasischen Hemmungsphänomen im primären Sehzentrum des Cortex orientiert. Diese Einheit redefiniert die herkömmliche Faltungs-Schicht durch die Implementierung eines Paars komplementärer Filter: eines trainierbaren Push-Kernels und seines Gegenstücks, des Pull-Kernels. Der Push-Kernel (analog zur klassischen Faltung) lernt, auf bestimmte Reize zu reagieren, während der Pull-Kernel auf die gleichen Reize mit entgegengesetzter Kontrastierung reagiert. Diese Konfiguration verbessert die Stimulus-Spezifität und hemmt wirksam die Reaktion in Bereichen, die keine bevorzugten Reize enthalten. Dieser Effekt beruht darauf, dass Push- und Pull-Kernel in solchen Regionen Reaktionen gleicher Größenordnung erzeugen, die sich gegenseitig aufheben. Die Integration von PushPull-Conv in ResNets erhöht deren Robustheit gegenüber Bildverzerrungen erheblich. Unsere Experimente mit Benchmark-Verzerrungs-Datensätzen zeigen, dass PushPull-Conv mit anderen Techniken zur Datenaugmentation kombiniert werden kann, um die Modellrobustheit weiter zu steigern. Wir erreichen mit der Kombination von PRIME-Augmentation und PushPull-Hemmung einen neuen Robustheits-Standard für ResNet50 mit einem $mCE$ von 49,95 % auf ImageNet-C.