HyperAIHyperAI
vor 2 Monaten

MonoDETR: Tiefen-gesteuerter Transformer für die monokulare 3D-Objekterkennung

Zhang, Renrui ; Qiu, Han ; Wang, Tai ; Guo, Ziyu ; Tang, Yiwen ; Xu, Xuanzhuo ; Cui, Ziteng ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
MonoDETR: Tiefen-gesteuerter Transformer für die monokulare 3D-Objekterkennung
Abstract

Die monokulare 3D-Objekterkennung ist seit langem eine herausfordernde Aufgabe im Bereich der autonomen Fahrzeuge. Die meisten existierenden Methoden folgen traditionellen 2D-Detektoren, um zunächst die Objektzentren zu lokalisieren und dann durch benachbarte Merkmale die 3D-Attribute vorherzusagen. Allerdings reichen lokale visuelle Merkmale allein nicht aus, um die 3D-Raumstruktur auf Szenenebene zu verstehen, und ignorieren sie dabei die Fernbeziehungen zwischen den Objektentfernungen. In dieser Arbeit stellen wir den ersten DETR-Framework für die monokulare Erkennung mit einem tiefenorientierten Transformer vor, den wir MonoDETR nennen. Wir modifizieren den Standard-Transformer, um tiefenbewusst zu sein, und führen kontextbezogene Tiefenhinweise ein, um den gesamten Detektionsprozess zu leiten. Insbesondere ergänzt der visuelle Encoder, der das Erscheinungsbild der Objekte erfasst, eine Vorhersage des Vordergrundtiefenkarten (Foreground Depth Map) und spezialisieren wir einen Tiefenencoder zur Extraktion nicht-lokaler Tiefeneinbettungen (Depth Embeddings). Anschließend formulieren wir 3D-Objektkandidaten als lernfähige Abfragen und schlagen einen tiefenorientierten Decoder vor, um Objekt-Szene-Tiefeninteraktionen durchzuführen. Auf diese Weise schätzt jede Objektabfrage ihre 3D-Attribute anpassungsfähig von den tiefenorientierten Bereichen im Bild ab und ist nicht länger auf lokale visuelle Merkmale beschränkt. Bei der Verwendung von monokularen Bildern als Eingabe erreicht MonoDETR auf dem KITTI-Benchmark Spitzenleistungen und benötigt keine zusätzlichen dichten Tiefenanmerkungen. Darüber hinaus können unsere tiefenorientierten Module auch in Multi-View-3D-Objektdetektoren eingebunden werden, um deren Leistung auf dem nuScenes-Datensatz zu verbessern, was unsere überlegene Generalisierungsfähigkeit unter Beweis stellt. Der Quellcode ist unter https://github.com/ZrrSkywalker/MonoDETR verfügbar.

MonoDETR: Tiefen-gesteuerter Transformer für die monokulare 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI