FFB6D: Ein vollständig durchflussorientiertes bidirektionales Fusionsnetzwerk für die 6D-Pose-Schätzung

In dieser Arbeit präsentieren wir FFB6D, ein vollständig bidirektionales Fusionsnetzwerk, das für die Schätzung der 6D-Pose aus einem einzigen RGBD-Bild konzipiert ist. Unser zentrales Konzept beruht darauf, dass die Erscheinungsinformationen im RGB-Bild und die geometrischen Informationen aus dem Tiefenbild zwei ergänzende Datenquellen darstellen, und es bleibt weiterhin unklar, wie diese optimal genutzt werden können. Um dies zu adressieren, schlagen wir FFB6D vor, das lernt, Erscheinungs- und Geometrieinformationen sowohl für die Darstellungslernung als auch für die Auswahl der Ausgabedarstellung zu kombinieren. Konkret bauen wir im vollen Datenfluss der beiden Netzwerke bidirektionale Fusionsmodule auf, wobei die Fusion in jeder Kodier- und Dekodierungsschicht angewendet wird. Auf diese Weise können die beiden Netzwerke sowohl lokale als auch globale ergänzende Informationen des jeweils anderen Netzwerks nutzen, um verbesserte Darstellungen zu erzeugen. Zudem entwerfen wir im Stadium der Ausgabedarstellung einen einfachen, aber wirksamen Algorithmus zur Auswahl von 3D-Knotenpunkten, der sowohl Textur- als auch Geometrieinformationen der Objekte berücksichtigt, wodurch die Lokalisierung der Knotenpunkte zur präzisen Schätzung der Pose vereinfacht wird. Experimentelle Ergebnisse zeigen, dass unsere Methode auf mehreren Benchmarks deutlich über den aktuellen Stand der Technik hinausgeht. Der Quellcode und Videos sind unter \url{https://github.com/ethnhe/FFB6D.git} verfügbar.