HyperAIHyperAI
vor 2 Monaten

Mehrsichtkompressiver Codierung für die 3D-Rekonstruktion

Chao-Yuan Wu; Justin Johnson; Jitendra Malik; Christoph Feichtenhofer; Georgia Gkioxari
Mehrsichtkompressiver Codierung für die 3D-Rekonstruktion
Abstract

Ein zentrales Ziel der visuellen Erkennung ist das Verstehen von Objekten und Szenen aus einem einzelnen Bild. Die 2D-Erkennung hat dank groß angelegtem Lernen und allgemeinen Darstellungen enorme Fortschritte gemacht. Im Vergleich dazu wirft die 3D neue Herausforderungen auf, die von Verdeckungen herrühren, die im Bild nicht dargestellt sind. Frühere Arbeiten versuchten diese durch Schließen aus mehreren Ansichten oder durch den Einsatz seltener CAD-Modelle und kategorie-spezifischer A-priori-Wissens zu überwinden, was eine Skalierung auf neue Szenarien erschwert. In dieser Arbeit untersuchen wir die 3D-Rekonstruktion aus einer einzelnen Ansicht durch das Lernen verallgemeinerbarer Darstellungen, inspiriert von Fortschritten im Bereich des selbstüberwachten Lernens. Wir stellen einen einfachen Rahmen vor, der auf 3D-Punkten einzelner Objekte oder ganzer Szenen basiert und mit kategorie-unabhängiger, groß angelegter Ausbildung anhand vielfältiger RGB-D-Videos arbeitet. Unser Modell, Multiview Compressive Coding (MCC) [Multiview-Kompressionscodierung], lernt, das Eingabe-Aussehen und -Geometrie zu komprimieren, um durch Abfrage eines 3D-bewussten Decoders die 3D-Struktur vorherzusagen. Die Allgemeinheit und Effizienz von MCC ermöglichen es, aus großen und vielfältigen Datenquellen zu lernen und sich stark auf neuartige Objekte zu verallgemeinern, die entweder von DALL$\cdot$E 2 vorgestellt werden oder in freier Wildbahn mit einem iPhone erfasst wurden.