HyperAIHyperAI

Command Palette

Search for a command to run...

VoxelKP: Eine voxelbasierte Netzarchitektur zur menschlichen Keypoint-Schätzung in LiDAR-Daten

Jian Shi Peter Wonka

Zusammenfassung

Wir stellen \textit{VoxelKP} vor, eine neuartige vollständig spärliche Netzarchitektur, die speziell für die Schätzung menschlicher Schlüsselpunkte in LiDAR-Daten entwickelt wurde. Die zentrale Herausforderung besteht darin, dass Objekte im dreidimensionalen Raum spärlich verteilt sind, während die Detektion menschlicher Schlüsselpunkte detaillierte lokale Informationen an jeder Stelle erfordert, an der sich Menschen befinden. In diesem Artikel präsentieren wir vier neue Konzepte. Erstens schlagen wir spärliche selektive Kerne vor, um multiskalaren Kontext zu erfassen. Zweitens führen wir spärliche Box-Attention ein, um das Lernen räumlicher Korrelationen zwischen Schlüsselpunkten innerhalb jeder menschlichen Instanz zu fokussieren. Drittens integrieren wir eine räumliche Kodierung, um absolute 3D-Koordinaten bei der Projektion von 3D-Voxel auf eine 2D-Gitterdarstellung im Vogelperspektiv-View (Bird’s Eye View) auszunutzen. Schließlich schlagen wir eine hybride Merkmalslernstrategie vor, die die Verarbeitung pro-Voxel-Merkmale mit spärlichen Konvolutionen kombiniert. Wir evaluieren unsere Methode auf dem Waymo-Datensatz und erreichen eine Verbesserung von 27%27\%27% im MPJPE-Maß gegenüber dem Stand der Technik, \textit{HUM3DIL}, das auf denselben Daten trainiert wurde, sowie 12%12\%12% gegenüber dem aktuellen Spitzenmodell \textit{GC-KPL}, das auf einem 252525-mal größeren Datensatz vortrainiert wurde. Soweit uns bekannt ist, ist \textit{VoxelKP} das erste einstufige, vollständig spärliche Netzwerk, das speziell für die anspruchsvolle Aufgabe der 3D-Schlüsselpunkt-Schätzung aus LiDAR-Daten konzipiert wurde und dabei die bisher besten Ergebnisse erzielt. Unser Code ist unter \url{https://github.com/shijianjian/VoxelKP} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VoxelKP: Eine voxelbasierte Netzarchitektur zur menschlichen Keypoint-Schätzung in LiDAR-Daten | Paper | HyperAI