vor 17 Tagen

VoxelKP: Eine voxelbasierte Netzarchitektur zur menschlichen Keypoint-Schätzung in LiDAR-Daten

Jian Shi, Peter Wonka

Abstract

Wir stellen \textit{VoxelKP} vor, eine neuartige vollständig spärliche Netzarchitektur, die speziell für die Schätzung menschlicher Schlüsselpunkte in LiDAR-Daten entwickelt wurde. Die zentrale Herausforderung besteht darin, dass Objekte im dreidimensionalen Raum spärlich verteilt sind, während die Detektion menschlicher Schlüsselpunkte detaillierte lokale Informationen an jeder Stelle erfordert, an der sich Menschen befinden. In diesem Artikel präsentieren wir vier neue Konzepte. Erstens schlagen wir spärliche selektive Kerne vor, um multiskalaren Kontext zu erfassen. Zweitens führen wir spärliche Box-Attention ein, um das Lernen räumlicher Korrelationen zwischen Schlüsselpunkten innerhalb jeder menschlichen Instanz zu fokussieren. Drittens integrieren wir eine räumliche Kodierung, um absolute 3D-Koordinaten bei der Projektion von 3D-Voxel auf eine 2D-Gitterdarstellung im Vogelperspektiv-View (Bird’s Eye View) auszunutzen. Schließlich schlagen wir eine hybride Merkmalslernstrategie vor, die die Verarbeitung pro-Voxel-Merkmale mit spärlichen Konvolutionen kombiniert. Wir evaluieren unsere Methode auf dem Waymo-Datensatz und erreichen eine Verbesserung von $27\%$ im MPJPE-Maß gegenüber dem Stand der Technik, \textit{HUM3DIL}, das auf denselben Daten trainiert wurde, sowie $12\%$ gegenüber dem aktuellen Spitzenmodell \textit{GC-KPL}, das auf einem $25$-mal größeren Datensatz vortrainiert wurde. Soweit uns bekannt ist, ist \textit{VoxelKP} das erste einstufige, vollständig spärliche Netzwerk, das speziell für die anspruchsvolle Aufgabe der 3D-Schlüsselpunkt-Schätzung aus LiDAR-Daten konzipiert wurde und dabei die bisher besten Ergebnisse erzielt. Unser Code ist unter \url{https://github.com/shijianjian/VoxelKP} verfügbar.