MaskedFusion: Maskenbasierte 6D-Objekt-Pose-Schätzung
MaskedFusion ist ein Framework zur Schätzung der 6D-Pose von Objekten unter Verwendung von RGB-D-Daten. Die Architektur nutzt mehrere Teilprobleme in einem Pipeline, um genaue 6D-Posen zu erreichen. Die Schätzung der 6D-Pose stellt eine offene Herausforderung dar, insbesondere aufgrund komplexer realweltlicher Objekte und vielfältiger Probleme bei der Datenerfassung, wie z.B. Verdeckungen, Abschneidungen und Rauschen in den Daten. Genauere 6D-Posen werden die Ergebnisse in anderen offenen Problemen verbessern, wie etwa dem Greifen von Robotern oder dem Positionieren von Objekten in erweiterter Realität. MaskedFusion übertrifft den Stand der Technik durch die Verwendung von Objektmasken, um nicht relevante Daten auszuschließen. Durch die Integration der Masken in das neuronale Netzwerk, das die 6D-Pose eines Objekts schätzt, erhalten wir auch Merkmale, die die Form des Objekts repräsentieren. MaskedFusion ist ein modulares Pipeline-System, bei dem jede Teilproblemlösung verschiedene Methoden anwenden kann, um das Ziel zu erreichen. MaskedFusion erzielte im Durchschnitt 97,3 % mit dem ADD-Metrik auf dem LineMOD-Datensatz und 93,3 % mit der ADD-S-AUC-Metrik auf dem YCB-Video-Datensatz, was eine Verbesserung gegenüber den bisherigen Stand-der-Technik-Methoden darstellt. Der Code ist auf GitHub verfügbar (https://github.com/kroglice/MaskedFusion).