HyperAIHyperAI
vor 11 Tagen

Quellfreie und bildbasierte unsupervisierte Domänenanpassung für die kategorieniveaue Objektpose-Schätzung

Prakhar Kaushik, Aayush Mishra, Adam Kortylewski, Alan Yuille
Quellfreie und bildbasierte unsupervisierte Domänenanpassung für die kategorieniveaue Objektpose-Schätzung
Abstract

Wir betrachten das Problem der quellenfreien, unsupervised kategorienspezifischen Pose-Schätzung aus lediglich RGB-Bildern für eine Ziel-Domäne, ohne während der Anpassung Zugriff auf Quell-Domänen-Daten oder 3D-Anmerkungen zu haben. Die Erhebung und Annotation von realweltbasierten 3D-Daten sowie entsprechenden Bildern ist ein zeitaufwendiger, kostspieliger, jedoch unvermeidbarer Prozess, da selbst Methoden zur 3D-Pose-Anpassung an die Ziel-Domäne 3D-Daten in dieser Domäne erfordern. Wir stellen 3DUDA vor, eine Methode, die in der Lage ist, sich an eine störfreie Ziel-Domäne ohne Zugriff auf 3D- oder Tiefendaten anzupassen. Unser zentraler Einblick basiert auf der Beobachtung, dass bestimmte Objekt-Unterteile auch unter außerhalb der Domäne liegenden (OOD) Bedingungen stabil bleiben, was eine strategische Nutzung dieser invarianten Unterkomponenten für eine effektive Modellaktualisierung ermöglicht. Wir repräsentieren Objektkategorien durch einfache Quader-Netzstrukturen und nutzen ein generatives Modell neuronaler Aktivierungen, das an jedem Netz-Knoten mittels differenzierbarer Darstellung gelernt wurde. Wir konzentrieren uns auf einzelne lokal robuste Knotenmerkmale des Netzes und aktualisieren diese iterativ basierend auf ihrer Nähe zu entsprechenden Merkmalen in der Ziel-Domäne – selbst dann, wenn die globale Pose nicht korrekt ist. Unser Modell wird anschließend im EM-Stil trainiert, wobei die Aktualisierung der Knotenmerkmale und der Merkmalsextrahierer abwechselnd erfolgt. Wir zeigen, dass unsere Methode eine Feinabstimmung auf einem globalen Pseudolabel-Datensatz unter milden Annahmen simuliert, die asymptotisch gegen die Ziel-Domäne konvergiert. Durch umfassende empirische Validierung, einschließlich eines komplexen extremen UDA-Setups, das reale Störungen, synthetische Rauschen und Verdeckung kombiniert, belegen wir die Wirksamkeit unseres einfachen Ansatzes bei der Bewältigung der Domänenverschiebung und der erheblichen Verbesserung der Pose-Schätzungsgenauigkeit.

Quellfreie und bildbasierte unsupervisierte Domänenanpassung für die kategorieniveaue Objektpose-Schätzung | Neueste Forschungsarbeiten | HyperAI