OA-CNNs: Omni-adaptive sparse CNNs für die 3D-Semantische Segmentierung

Der Aufschwung der 3D-Erkennung in den 2020er Jahren begann mit der Einführung von Point-Cloud-Transformern. Diese übertrafen schnell herkömmliche spärliche CNNs und etablierten sich als State-of-the-Art-Modelle, insbesondere bei der 3D-Semantiksegmentierung. Dennoch bleiben spärliche CNNs aufgrund ihrer Effizienz, ihres geringen Ressourcenverbrauchs und der einfachen Anwendbarkeit weiterhin wertvolle Architekturen. In dieser Arbeit untersuchen wir erneut die designbedingten Unterschiede und testen die Grenzen dessen, was ein spärliches CNN leisten kann. Wir entdecken, dass der entscheidende Faktor für die Leistungsunterschiede in der Adaptivität liegt. Konkret stellen wir zwei zentrale Komponenten vor: adaptivere Empfindlichkeitsfelder (räumlich) und adaptive Beziehungen, um diese Lücke zu schließen. Diese Untersuchung führte zur Entwicklung der Omni-Adaptiven 3D-CNNs (OA-CNNs), einer Netzwerkfamilie, die ein leichtgewichtiges Modul integriert, um die Adaptivität spärlicher CNNs mit minimalen zusätzlichen Rechenkosten erheblich zu steigern. Ohne jegliche Selbst-Attention-Module übertrifft OA-CNNs die Leistung von Point-Transformern sowohl in Innen- als auch Außenbereichen hinsichtlich der Genauigkeit, wobei die Latenz und der Speicherverbrauch deutlich geringer sind. Insbesondere erreicht OA-CNNs mIoU-Werte von 76,1 %, 78,9 % und 70,6 % auf den Validierungsbenchmarks ScanNet v2, nuScenes und SemanticKITTI, während die Geschwindigkeit gegenüber Transformer-Entsprechungen maximal fünfmal höher ist. Diese Erkenntnis unterstreicht das erhebliche Potenzial reiner spärlicher CNNs, Transformer-basierte Netzwerke zu übertrumpfen.