HyperAIHyperAI
vor 11 Tagen

Spherical Transformer für die 3D-Erkennung basierend auf LiDAR

Xin Lai, Yukang Chen, Fanbin Lu, Jianhui Liu, Jiaya Jia
Spherical Transformer für die 3D-Erkennung basierend auf LiDAR
Abstract

Die LiDAR-basierte Erkennung von 3D-Punktwolken hat zahlreiche Anwendungen bereichert. Da die meisten aktuellen Methoden die Verteilung der LiDAR-Punkte nicht speziell berücksichtigen, leiden sie insbesondere bei spärlich verteilten, weit entfernten Punkten unter Informationsunterbrechung und eingeschränktem Empfangsfeld. In dieser Arbeit untersuchen wir die variierende Dichte der LiDAR-Punkte und stellen SphereFormer vor, ein Ansatz, der Informationen direkt von dicht belegten, nahen Punkten zu spärlich verteilten, entfernten Punkten aggregiert. Wir entwickeln eine radiale Fenster- Selbst-Attention, die den Raum in mehrere nicht überlappende, schmale und lange Fenster unterteilt. Dieser Ansatz löst das Problem der Informationsunterbrechung und erweitert das Empfangsfeld nahtlos und deutlich, was die Leistung bei spärlichen, entfernten Punkten erheblich steigert. Zudem passen wir die schmalen und langen Fenster durch eine exponentielle Aufteilung an, um feinkörnige Positionscodierungen zu erzeugen, sowie durch dynamische Merkmalsauswahl, um die Repräsentationskraft des Modells zu erhöhen. Bemerkenswerterweise erreicht unser Verfahren bei beiden Benchmarks für semantische Segmentierung, nuScenes und SemanticKITTI, die erste Platzierung mit jeweils 81,9 % und 74,8 % mIoU. Zudem erreichen wir den dritten Platz im Objektdetektionsbenchmark von nuScenes mit 72,8 % NDS und 68,5 % mAP. Der Quellcode ist unter https://github.com/dvlab-research/SphereFormer.git verfügbar.

Spherical Transformer für die 3D-Erkennung basierend auf LiDAR | Neueste Forschungsarbeiten | HyperAI