HyperAIHyperAI

Command Palette

Search for a command to run...

Quellfreie und bildbasierte unsupervisierte Domänenanpassung für die kategorieniveaue Objektpose-Schätzung

Prakhar Kaushik Aayush Mishra Adam Kortylewski Alan Yuille

Zusammenfassung

Wir betrachten das Problem der quellenfreien, unsupervised kategorienspezifischen Pose-Schätzung aus lediglich RGB-Bildern für eine Ziel-Domäne, ohne während der Anpassung Zugriff auf Quell-Domänen-Daten oder 3D-Anmerkungen zu haben. Die Erhebung und Annotation von realweltbasierten 3D-Daten sowie entsprechenden Bildern ist ein zeitaufwendiger, kostspieliger, jedoch unvermeidbarer Prozess, da selbst Methoden zur 3D-Pose-Anpassung an die Ziel-Domäne 3D-Daten in dieser Domäne erfordern. Wir stellen 3DUDA vor, eine Methode, die in der Lage ist, sich an eine störfreie Ziel-Domäne ohne Zugriff auf 3D- oder Tiefendaten anzupassen. Unser zentraler Einblick basiert auf der Beobachtung, dass bestimmte Objekt-Unterteile auch unter außerhalb der Domäne liegenden (OOD) Bedingungen stabil bleiben, was eine strategische Nutzung dieser invarianten Unterkomponenten für eine effektive Modellaktualisierung ermöglicht. Wir repräsentieren Objektkategorien durch einfache Quader-Netzstrukturen und nutzen ein generatives Modell neuronaler Aktivierungen, das an jedem Netz-Knoten mittels differenzierbarer Darstellung gelernt wurde. Wir konzentrieren uns auf einzelne lokal robuste Knotenmerkmale des Netzes und aktualisieren diese iterativ basierend auf ihrer Nähe zu entsprechenden Merkmalen in der Ziel-Domäne – selbst dann, wenn die globale Pose nicht korrekt ist. Unser Modell wird anschließend im EM-Stil trainiert, wobei die Aktualisierung der Knotenmerkmale und der Merkmalsextrahierer abwechselnd erfolgt. Wir zeigen, dass unsere Methode eine Feinabstimmung auf einem globalen Pseudolabel-Datensatz unter milden Annahmen simuliert, die asymptotisch gegen die Ziel-Domäne konvergiert. Durch umfassende empirische Validierung, einschließlich eines komplexen extremen UDA-Setups, das reale Störungen, synthetische Rauschen und Verdeckung kombiniert, belegen wir die Wirksamkeit unseres einfachen Ansatzes bei der Bewältigung der Domänenverschiebung und der erheblichen Verbesserung der Pose-Schätzungsgenauigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Quellfreie und bildbasierte unsupervisierte Domänenanpassung für die kategorieniveaue Objektpose-Schätzung | Paper | HyperAI