HyperAIHyperAI

Command Palette

Search for a command to run...

MonoDGP: Monokulare 3D-Objekterkennung mit entkoppelten Abfragen und geometrischen Fehlerpriorisierung

Fanqi Pu Yifan Wang Jiru Deng Wenming Yang*

Zusammenfassung

Die perspektivische Projektion wird in monoökularen 3D-Objekterkennungsmethoden weitgehend eingesetzt. Sie führt geometrische A-priori-Wissen aus 2D-Bounding-Boxen und den Dimensionen von 3D-Objekten ein, um die Unsicherheit der Tiefenschätzung zu reduzieren. Allerdings führen Tiefenfehler, die vom visuellen Oberflächen des Objekts stammen, dazu, dass die Höhe der Bounding Box oft nicht die tatsächliche projizierte zentrale Höhe repräsentiert, was die Effektivität der geometrischen Tiefe untergräbt. Die direkte Vorhersage der projizierten Höhe verursacht unvermeidlich einen Verlust an 2D-A-priori-Wissen, während eine Mehrfachtiefenvorhersage mit komplexen Zweigen das geometrische Tiefenwissen nicht vollständig nutzt. In dieser Arbeit stellen wir eine auf Transformatoren basierende monoökularer 3D-Objekterkennungsmethode vor, die MonoDGP genannt wird und perspektivisch invariantes geometrisches Fehlerwissen zur Modifikation der Projektionsformel verwendet. Wir versuchen auch systematisch die Mechanismen und Effizienz hinter den geometrischen Fehlern zu diskutieren und zu erklären, die als einfache aber effektive Alternative zur Mehrfachtiefenvorhersage dienen. Zudem entkoppelt MonoDGP den tiefegeführten Decoder und baut einen nur auf visuellen Merkmalen basierenden 2D-Decoder auf, der 2D-A-priori-Wissen bereitstellt und Objektanfragen initialisiert, ohne durch die 3D-Erkennung gestört zu werden. Um die Eingabetoken des Transformer-Decoders weiter zu optimieren und fein abzustimmen, führen wir außerdem einen Regionensegmentierungs-Head (RSH) ein, der erweiterte Merkmale und Segmentierungsembeddings generiert. Unsere monoökulare Methode zeigt Spitzenleistungen im KITTI-Benchmark ohne zusätzliche Daten. Der Quellcode ist unter https://github.com/PuFanqi23/MonoDGP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp