se(3)-TrackNet: Datengetriebene 6D-Positionstracking durch Kalibrierung von Bildresten in synthetischen Domänen

Die Verfolgung der 6D-Pose von Objekten in Videosequenzen ist für die Robotermanipulation von entscheidender Bedeutung. Dieser Aufgabe liegen jedoch mehrere Herausforderungen zugrunde: (i) Die Robotermanipulation führt zu erheblichen Verdeckungen; (ii) Die Erhebung von Daten und Annotationen für 6D-Posen ist aufwendig und schwierig, was maschinelles Lernen erschwert; (iii) Akkumulierte Inkonsistenzen durch inkrementellen Fehlerdrift treten bei der Langzeitverfolgung häufig auf und erfordern daher eine Neubestimmung der Objektpose. In dieser Arbeit wird ein datengestützter Optimierungsansatz für die Langzeit-6D-Poseverfolgung vorgestellt. Ziel ist es, die optimale relative Pose zu ermitteln, gegeben die aktuelle RGB-D-Beobachtung sowie ein synthetisches Bild, das auf der vorherigen besten Schätzung und dem Objektmodell basiert. Der zentrale Beitrag liegt in einer neuartigen neuronalen Netzarchitektur, die die Merkmalscodierung angemessen entkoppelt, um den Domain-Shift zu verringern, sowie in einer effektiven 3D-Orientierungsrepräsentation mittels Lie-Algebra. Dadurch kann das Netzwerk bereits dann effektiv auf realen Bildern arbeiten, wenn es ausschließlich mit synthetischen Daten trainiert wurde. Umfassende Experimente an Benchmark-Datenbanken – sowohl bestehenden als auch einer neuen Datensammlung mit erheblichen Verdeckungen im Kontext der Objektmanipulation – zeigen, dass der vorgeschlagene Ansatz konsistent robuste Schätzungen liefert und auch gegenüber Alternativen, die mit realen Bildern trainiert wurden, übertrifft. Zudem ist der Ansatz die rechenintensivste effizienteste unter den verglichenen Methoden und erreicht eine Verfolgungsfrequenz von 90,9 Hz.