Visuelles Erscheinungsbild und Geometrie für die mehrmodale 6DoF-Objektverfolgung fusionieren

In vielen Anwendungen der fortgeschrittenen Robotikmanipulation werden kontinuierliche Schätzungen der Objektpose mit sechs Freiheitsgraden (6DoF) benötigt. In dieser Arbeit entwickeln wir einen multimodalen Tracker, der Informationen aus visuellem Erscheinungsbild und Geometrie fusioniert, um die Pose von Objekten zu schätzen. Der Algorithmus erweitert unsere frühere Methode ICG, die Geometrie verwendet, um zusätzliche Oberflächenmerkmale zu berücksichtigen. Im Allgemeinen enthalten Objektoberflächen lokale Merkmale aus Text, Grafiken und Mustern sowie globale Unterschiede durch unterschiedliche Materialien und Farben. Um diese visuellen Informationen zu integrieren, wurden zwei Modalitäten entwickelt. Für lokale Merkmale werden Keypoint-Features verwendet, um die Abstände zwischen Punkten aus Schlüsselbildern und dem aktuellen Bild zu minimieren. Für globale Unterschiede wurde ein neuer regionaler Ansatz entwickelt, der mehrere Regionen auf der Objektoberfläche berücksichtigt. Zudem ermöglicht er das Modellieren externer Geometrien.Experimente mit den Datensätzen YCB-Video und OPT zeigen, dass unser Ansatz ICG+ in beiden Datensätzen die besten Ergebnisse liefert und sowohl herkömmliche als auch tiefes Lernen basierende Methoden übertrifft. Gleichzeitig ist der Algorithmus sehr effizient und läuft mit mehr als 300 Hz. Der Quellcode unseres Trackers ist öffentlich zugänglich.