Omni-supervised Punktclouddsegmentierung durch graduellen Rezeptionsfeld-Komponenten-Reasoning

Versteckte Merkmale in neuronalen Netzen können in der Regel keine informativen Darstellungen für die 3D-Segmentierung erlernen, da die Supervision nur auf der Ausgabevorhersage basiert. Dieses Problem lässt sich durch eine Omni-Skalen-Supervision in Zwischenschichten lösen. In diesem Artikel präsentieren wir erstmals eine Omni-Skalen-Supervisionsmethode für die Punktclouddsegmentierung mittels des vorgeschlagenen graduellen Receptive-Field-Komponenten-Reasoning (RFCR). Dabei werden Ziel-Receptive-Field-Komponenten-Codes (RFCCs) entworfen, um Kategorien innerhalb der Receptive Fields der versteckten Einheiten im Encoder zu speichern. Diese Ziel-RFCCs überwachen dann den Decoder dabei, die RFCCs schrittweise in einer grob-zu-fein Kategorien-Reasoning-Methode abzuleiten, um schließlich die semantischen Etiketten zu erhalten. Da viele versteckte Merkmale mit geringer Größe inaktiv sind und nur geringe Beiträge zur Vorhersage der RFCCs leisten, schlagen wir eine Feature-Densifizierung mit einem zentrifugalen Potential vor, um klarere und aussagekräftigere Merkmale zu gewinnen. Dies entspricht im Wesentlichen einer Entropie-Regularisierung der Merkmale. Aktivere Merkmale können zudem das volle Potenzial unserer Omni-Supervisionsmethode freisetzen. Wir integrieren unsere Methode in vier etablierte Backbone-Architekturen und testen sie auf drei anspruchsvollen Benchmarks. Unser Ansatz verbessert die Baseline-Modelle signifikant auf allen drei Datensätzen. Insbesondere erzielt unsere Methode neue SOTA-Leistungen auf S3DIS sowie Semantic3D und erreicht den ersten Platz im ScanNet-Benchmark unter allen punktbasierten Methoden. Der Quellcode wird öffentlich unter https://github.com/azuki-miho/RFCR zur Verfügung gestellt.