GenPose: Generative Kategorieebene Objekt-Pose-Schätzung durch Diffusionsmodelle

Die Objekt-Pose-Schätzung spielt eine entscheidende Rolle in der verkörperten KI und der Computer Vision, indem sie intelligente Agenten ermöglicht, ihre Umgebung zu verstehen und mit ihr zu interagieren. Trotz der Praktikabilität der kategorienbasierten Pose-Schätzung stoßen aktuelle Ansätze auf Herausforderungen bei teilweise beobachteten Punktwolken, was als das Multihypothese-Problem bekannt ist. In dieser Studie schlagen wir eine neuartige Lösung vor, indem wir die kategorienbasierte Objekt-Pose-Schätzung als bedingtes generatives Modellierung neu interpretieren, was sich von traditionellen Punkt-zu-Punkt-Regressionen unterscheidet. Unter Verwendung von score-basierten Diffusionsmodellen schätzen wir Objekt-Posen, indem wir Kandidaten aus dem Diffusionsmodell sampeln und diese durch einen zweistufigen Prozess aggregieren: Ausreißer werden durch Likelihood-Schätzung gefiltert und die verbleibenden Kandidaten anschließend mittels Mean-Pooling zusammengefasst. Um den aufwendigen Integrationsprozess bei der Likelihood-Schätzung zu vermeiden, führen wir eine alternative Methode ein, die ein energiebasiertes Modell aus dem ursprünglichen score-basierten Modell trainiert, wodurch eine end-to-end-Likelihood-Schätzung ermöglicht wird. Unser Ansatz erzielt Stand-der-Technik-Ergebnisse im REAL275-Datensatz, wobei er bei den strengen Metriken 5d2cm und 5d5cm jeweils über 50 % und 60 % erreicht. Darüber hinaus zeigt unsere Methode eine starke Generalisierbarkeit auf neue Kategorien mit ähnlichen symmetrischen Eigenschaften ohne Feinabstimmung (fine-tuning) und kann sich problemlos an Objekt-Pose-Tracking-Aufgaben anpassen, wobei vergleichbare Ergebnisse wie die aktuellen Stand-der-Technik-Baselines erzielt werden.