MLCVNet: Multi-Level Context VoteNet für die 3D-Objekterkennung

In diesem Artikel behandeln wir die Aufgabe der 3D-Objekterkennung, indem wir mehrstufige kontextuelle Informationen mit Hilfe des Selbst-Attention-Mechanismus und der Multi-Scale-Feature-Fusion erfassen. Die meisten bestehenden Ansätze zur 3D-Objekterkennung erkennen Objekte individuell und berücksichtigen dabei keinerlei kontextuelle Informationen zwischen diesen Objekten. Im Gegensatz dazu schlagen wir Multi-Level Context VoteNet (MLCVNet) vor, um 3D-Objekte korrelierend zu erkennen, basierend auf dem state-of-the-art-Verfahren VoteNet. Wir integrieren drei Kontextmodule in die Voting- und Klassifizierungsphasen von VoteNet, um kontextuelle Informationen auf verschiedenen Ebenen zu kodieren. Konkret wird ein Patch-to-Patch-Context (PPC)-Modul eingesetzt, um kontextuelle Informationen zwischen Punkt-Patches zu erfassen, bevor diese für die Bestimmung der zugehörigen Objekzentrenpunkte votiert werden. Anschließend wird ein Object-to-Object-Context (OOC)-Modul vor der Vorschlags- und Klassifizierungsphase eingefügt, um kontextuelle Informationen zwischen Objektkandidaten zu erfassen. Schließlich wird ein Global Scene Context (GSC)-Modul entworfen, um die globale Szenenkontextinformation zu lernen. Wir demonstrieren dies durch die Erfassung kontextueller Informationen auf Patch-, Objekt- und Szenenebene. Unser Ansatz ist eine effektive Methode zur Steigerung der Erkennungsgenauigkeit und erreicht neue state-of-the-art-Ergebnisse auf anspruchsvollen 3D-Objekterkennungsdatenbanken, nämlich SUN RGB-D und ScanNet. Zudem veröffentlichen wir unseren Code unter https://github.com/NUAAXQ/MLCVNet.