GLENet: Steigerung von 3D-Objektdetektoren durch generative Schätzung der Label-Unsicherheit

Die inhärente Mehrdeutigkeit der Ground-Truth-Anmerkungen für 3D-Bounding-Boxes, verursacht durch Verdeckungen, Signalverluste oder menschliche Fehler bei der Annotation, kann tiefe 3D-Objektdetektoren während des Trainings verwirren und somit die Detektionsgenauigkeit verschlechtern. Bisherige Methoden ignorieren dieses Problem jedoch teilweise und behandeln die Labels als deterministisch. In diesem Artikel formulieren wir das Problem der Label-Unsicherheit als Vielfalt potenziell plausibler Bounding-Boxes für Objekte. Anschließend stellen wir GLENet vor, einen generativen Ansatz, der auf bedingten variationalen Autoencodern basiert, um die ein-zu-viele-Beziehung zwischen einem typischen 3D-Objekt und seinen potenziellen Ground-Truth-Bounding-Boxes mittels latenter Variablen zu modellieren. Die durch GLENet generierte Label-Unsicherheit ist ein plug-and-play-Modul, das problemlos in bestehende tiefe 3D-Detektoren integriert werden kann, um probabilistische Detektoren zu konstruieren und das Lernen der Lokalisierungsunsicherheit zu überwachen. Zusätzlich schlagen wir eine unsicherheitsbewusste Qualitäts-Schätzer-Architektur für probabilistische Detektoren vor, die den Training des IoU-Branches mit vorhergesagter Lokalisierungsunsicherheit leitet. Wir integrieren die vorgeschlagenen Methoden in verschiedene gängige Basis-3D-Detektoren und demonstrieren erhebliche und konsistente Leistungssteigerungen sowohl auf den Benchmark-Datensätzen KITTI als auch Waymo. Insbesondere übertrifft GLENet-VR alle veröffentlichten LiDAR-basierten Ansätze deutlich und erreicht auf dem anspruchsvollen KITTI-Testset die Spitzenposition unter den Ein-Modus-Methoden. Der Quellcode und vortrainierte Modelle sind öffentlich unter \url{https://github.com/Eaphan/GLENet} verfügbar.