MonoDTR: Monokulare 3D-Objekterkennung mit tiefenbewusstem Transformer

Die monokulare 3D-Objekterkennung ist eine wichtige, jedoch herausfordernde Aufgabe im autonomen Fahren. Einige bestehende Methoden nutzen Tiefeninformationen von einem fertigen Tiefenschätzer, um die 3D-Erkennung zu unterstützen, leiden aber unter der zusätzlichen Rechenlast und erzielen aufgrund ungenauer Tiefenvorwissen begrenzte Leistung. Um dies zu verbessern, schlagen wir MonoDTR vor, ein neues end-to-end tiefenbewusstes Transformer-Netzwerk für die monokulare 3D-Objekterkennung. Es besteht hauptsächlich aus zwei Komponenten: (1) dem Modul zur tiefenbewussten Merkmalsverbesserung (Depth-Aware Feature Enhancement, DFE), das tiefenbewusste Merkmale mit zusätzlicher Überwachung implizit lernt, ohne zusätzliche Berechnungen zu benötigen, und (2) dem Modul zum tiefenbewussten Transformer (Depth-Aware Transformer, DTR), das kontext- und tiefenbewusste Merkmale global integriert. Darüber hinaus unterscheidet sich unser Ansatz von herkömmlichen pixelbasierten Positionscodierungen dadurch, dass wir eine neue tiefenbasierte Positionscodierung (Depth Positional Encoding, DPE) einführen, um tiefenbezogene Hinweise in die Transformatoren einzubringen. Unsere vorgeschlagenen tiefenbewussten Module können leicht in bestehende bildbasierte monokulare 3D-Objekterkennungsverfahren integriert werden, um deren Leistungsfähigkeit zu steigern. Ausführliche Experimente am KITTI-Datensatz zeigen, dass unser Ansatz die bisher besten monokular basierten Methoden übertrifft und Echtzeit-Erkennung ermöglicht. Der Quellcode ist unter https://github.com/kuanchihhuang/MonoDTR verfügbar.