LCPFormer: Auf dem Weg zu effektiver 3D-Punktwolkenanalyse durch lokale Kontextverbreitung in Transformers

Der Transformer mit seinem zugrundeliegenden Aufmerksamheitsmechanismus und der Fähigkeit, langreichweitige Abhängigkeiten zu erfassen, stellt eine natürliche Wahl für unsortierte Punktwolken-Daten dar. Allerdings zerstören getrennte lokale Regionen aus der allgemeinen Sampling-Architektur die strukturelle Information der Instanzen, und die inhärenten Beziehungen zwischen benachbarten lokalen Regionen werden nicht ausreichend untersucht, obwohl lokale strukturelle Informationen in einem transformer-basierten 3D-Punktwolkenmodell von entscheidender Bedeutung sind. Daher schlagen wir in dieser Arbeit ein neues Modul vor, das als Local Context Propagation (LCP) bezeichnet wird, um den Informationsaustausch zwischen benachbarten lokalen Regionen zu nutzen und ihre Darstellungen informativer und diskriminativer zu gestalten. Genauer gesagt verwenden wir die Überlappungspunkte benachbarter lokaler Regionen (die statistisch häufig vorkommen) als Vermittler und gewichten dann die Merkmale dieser gemeinsamen Punkte aus verschiedenen lokalen Regionen neu, bevor wir sie an die nächsten Schichten weiterleiten. Die Einfügung des LCP-Moduls zwischen zwei Transformer-Schichten führt zu einer erheblichen Verbesserung der Netzwerkexpressivität. Schließlich entwerfen wir eine flexible LCPFormer-Architektur, die mit dem LCP-Modul ausgestattet ist. Das vorgeschlagene Verfahren ist auf verschiedene Aufgaben anwendbar und übertrifft verschiedene transformer-basierte Methoden in Benchmarks wie 3D-Formklassifikation und dichte Vorhersageaufgaben wie 3D-Objekterkennung und semantische Segmentierung. Der Code wird veröffentlicht, um Reproduktion zu ermöglichen.