MonoDGP: Monokulare 3D-Objekterkennung mit entkoppelten Abfragen und geometrischen Fehlerpriorisierung

Die perspektivische Projektion wird in monoökularen 3D-Objekterkennungsmethoden weitgehend eingesetzt. Sie führt geometrische A-priori-Wissen aus 2D-Bounding-Boxen und den Dimensionen von 3D-Objekten ein, um die Unsicherheit der Tiefenschätzung zu reduzieren. Allerdings führen Tiefenfehler, die vom visuellen Oberflächen des Objekts stammen, dazu, dass die Höhe der Bounding Box oft nicht die tatsächliche projizierte zentrale Höhe repräsentiert, was die Effektivität der geometrischen Tiefe untergräbt. Die direkte Vorhersage der projizierten Höhe verursacht unvermeidlich einen Verlust an 2D-A-priori-Wissen, während eine Mehrfachtiefenvorhersage mit komplexen Zweigen das geometrische Tiefenwissen nicht vollständig nutzt. In dieser Arbeit stellen wir eine auf Transformatoren basierende monoökularer 3D-Objekterkennungsmethode vor, die MonoDGP genannt wird und perspektivisch invariantes geometrisches Fehlerwissen zur Modifikation der Projektionsformel verwendet. Wir versuchen auch systematisch die Mechanismen und Effizienz hinter den geometrischen Fehlern zu diskutieren und zu erklären, die als einfache aber effektive Alternative zur Mehrfachtiefenvorhersage dienen. Zudem entkoppelt MonoDGP den tiefegeführten Decoder und baut einen nur auf visuellen Merkmalen basierenden 2D-Decoder auf, der 2D-A-priori-Wissen bereitstellt und Objektanfragen initialisiert, ohne durch die 3D-Erkennung gestört zu werden. Um die Eingabetoken des Transformer-Decoders weiter zu optimieren und fein abzustimmen, führen wir außerdem einen Regionensegmentierungs-Head (RSH) ein, der erweiterte Merkmale und Segmentierungsembeddings generiert. Unsere monoökulare Methode zeigt Spitzenleistungen im KITTI-Benchmark ohne zusätzliche Daten. Der Quellcode ist unter https://github.com/PuFanqi23/MonoDGP verfügbar.