HyperAIHyperAI
vor 11 Tagen

Verbesserung der 6-DoF-Objektpose-Schätzung durch Multimodale Fusion: Eine hybride CNN-Architektur mit cross-layer- und cross-modal-Integration

{Qiang Zhang, Qing Ma, Hao Wei, Xueying Sun, Zihang Wang}
Abstract

In jüngster Zeit hat die Nutzung von RGB-D-Daten für Aufgaben der Robotervorstellung in Bereichen wie Robotik und autonome Fahrt erhebliche Aufmerksamkeit erlangt. Ein zentrales Problem in diesem Feld liegt jedoch in der erheblichen Beeinflussung der Merkmalsrobustheit sowohl bei der Segmentierung als auch bei der Pose-Schätzung. Um dieser Herausforderung zu begegnen, schlagen wir eine bahnbrechende zweistufige hybride Architektur aus Faltungsneuralen Netzen (Convolutional Neural Networks, CNN) vor, die Segmentierung und Pose-Schätzung kaskadenartig verknüpft. Insbesondere entwickeln wir Moduln für die Kreuzmodalkommunikation (Cross-Modal, CM) und die Kreuzschichtkommunikation (Cross-Layer, CL), um die ergänzenden Informationen aus den RGB- und Tiefenmodalitäten sowie die hierarchischen Merkmale aus verschiedenen Schichten des Netzwerks effizient auszunutzen. Die Integration von CM und CL verbessert die Segmentierungsgenauigkeit signifikant, indem räumliche und kontextuelle Informationen effektiv erfasst werden. Darüber hinaus führen wir das Convolutional Block Attention Module (CBAM) ein, das die Merkmalskarten dynamisch neu kalibriert und es dem Netzwerk ermöglicht, sich auf informative Bereiche und Kanäle zu konzentrieren, wodurch die Gesamtleistung der Pose-Schätzung verbessert wird. Wir führen umfangreiche Experimente auf Benchmark-Datensätzen durch, um die vorgeschlagene Methode zu evaluieren, und erreichen herausragende Ergebnisse bei der Ziel-Pose-Schätzung: Mit der ADD-S AUC-Metrik erzielen wir eine durchschnittliche Genauigkeit von 94,5 %, und 97,6 % der Schätzungen liegen unter 2 cm Abweichung (ADD-S < 2 cm). Diese Ergebnisse belegen die überlegene Leistungsfähigkeit unserer vorgeschlagenen Methode.

Verbesserung der 6-DoF-Objektpose-Schätzung durch Multimodale Fusion: Eine hybride CNN-Architektur mit cross-layer- und cross-modal-Integration | Neueste Forschungsarbeiten | HyperAI