HyperAIHyperAI
vor 11 Tagen

ImVoteNet: Steigerung der 3D-Objektdetektion in Punktwolken mittels Bildvotes

Charles R. Qi, Xinlei Chen, Or Litany, Leonidas J. Guibas
ImVoteNet: Steigerung der 3D-Objektdetektion in Punktwolken mittels Bildvotes
Abstract

Die 3D-Objektdetektion hat dank Fortschritten in der tiefen Lernverfahren für Punktwolken erheblich an Geschwindigkeit gewonnen. Einige neuere Arbeiten konnten bereits state-of-the-art Ergebnisse mit lediglich Punktwolken als Eingabe erzielen (z. B. VoteNet). Punktwolken weisen jedoch inhärente Einschränkungen auf: Sie sind spärlich, verfügen über keine Farbinformationen und leiden oft unter Sensorrauschen. Bilder hingegen zeichnen sich durch hohe Auflösung und reiche Textur aus und können daher die 3D-Geometrie, die aus Punktwolken gewonnen wird, sinnvoll ergänzen. Die Frage, wie Bildinformationen effektiv zur Unterstützung der auf Punktwolken basierenden Detektion genutzt werden können, bleibt jedoch weiterhin offen. In dieser Arbeit bauen wir auf VoteNet auf und stellen eine speziell für RGB-D-Szenen konzipierte 3D-Detektionsarchitektur namens ImVoteNet vor. ImVoteNet basiert auf der Fusion von 2D-Voten aus Bildern und 3D-Voten aus Punktwolken. Im Vergleich zu vorherigen Arbeiten zur multimodalen Detektion extrahieren wir explizit sowohl geometrische als auch semantische Merkmale aus den 2D-Bildern. Wir nutzen Kameraparameter, um diese Merkmale in den 3D-Raum zu projizieren. Um die Synergie der Fusion von 2D- und 3D-Merkmalsdarstellungen zu verbessern, führen wir zudem ein mehrschichtiges Trainingsverfahren ein. Wir validieren unser Modell auf dem anspruchsvollen SUN RGB-D-Datensatz und erreichen dabei eine Verbesserung der state-of-the-art-Ergebnisse um 5,7 mAP. Zudem führen wir umfassende Ablationstudien durch, um den Beitrag jeder einzelnen Entwurfsentscheidung zu analysieren.

ImVoteNet: Steigerung der 3D-Objektdetektion in Punktwolken mittels Bildvotes | Neueste Forschungsarbeiten | HyperAI