PIDNet: Eine Echtzeit-Semantic-Segmentation-Netzwerk, das von PID-Reglern inspiriert ist

Die zweigfache Netzarchitektur hat ihre Effizienz und Wirksamkeit bei Aufgaben der Echtzeit-Semantiksegmentierung gezeigt. Allerdings weist die direkte Fusion hochauflösender Details und niederfrequenter Kontextinformationen den Nachteil auf, dass detaillierte Merkmale leicht von der umgebenden Kontextinformation überlagert werden. Dieses Überschwingen beeinträchtigt die Verbesserung der Segmentierungsgenauigkeit bestehender zweigfacher Modelle. In diesem Artikel stellen wir eine Verbindung zwischen Convolutional Neural Networks (CNN) und Proportional-Integral-Derivative-(PID)-Reglern her und zeigen, dass eine zweigfache Netzarchitektur äquivalent einem Proportional-Integral-(PI)-Regler ist, der inhärent ähnliche Überschwingungsprobleme aufweist. Um dieses Problem zu mildern, schlagen wir eine neuartige dreigeteilte Netzarchitektur vor: PIDNet, die drei Zweige enthält, um jeweils detaillierte Merkmale, Kontextinformationen und Randinformationen zu verarbeiten, und Rand-Attention verwendet, um die Fusion der Zweige für Details und Kontext zu leiten. Unsere Familie von PIDNets erreicht das beste Gleichgewicht zwischen Inferenzgeschwindigkeit und Genauigkeit, und ihre Genauigkeit übertrifft alle bestehenden Modelle mit vergleichbarer Inferenzgeschwindigkeit auf den Datensätzen Cityscapes und CamVid. Insbesondere erreicht PIDNet-S auf Cityscapes eine mIOU von 78,6 % bei einer Inferenzgeschwindigkeit von 93,2 FPS und auf CamVid eine mIOU von 80,1 % bei einer Geschwindigkeit von 153,7 FPS.