HyperAIHyperAI
vor 11 Tagen

Atlas: End-to-End 3D-Szenen-Rekonstruktion aus posierten Bildern

Zak Murez, Tarrence van As, James Bartolozzi, Ayan Sinha, Vijay Badrinarayanan, Andrew Rabinovich
Atlas: End-to-End 3D-Szenen-Rekonstruktion aus posierten Bildern
Abstract

Wir präsentieren eine end-to-end-3D-Rekonstruktionsmethode für eine Szene, bei der direkt eine truncated signed distance function (TSDF) aus einer Menge von kalibrierten RGB-Bildern regresiert wird. Traditionelle Ansätze zur 3D-Rekonstruktion basieren auf einer intermediären Darstellung von Tiefenkarten, bevor ein vollständiges 3D-Modell der Szene geschätzt wird. Wir vermuten, dass eine direkte Regressionsmethode auf 3D effektiver ist. Ein 2D-CNN extrahiert unabhängig von jedem Bild Merkmale, die anschließend mithilfe der Kameraintrinsika und Extrinsika rückprojiziert und in einem Voxelvolumen akkumuliert werden. Nach der Akkumulation verfeinert ein 3D-CNN die akkumulierten Merkmale und prognostiziert die TSDF-Werte. Zudem wird die semantische Segmentierung des 3D-Modells ohne signifikanten zusätzlichen Rechenaufwand erzielt. Die Methode wird auf dem Scannet-Datensatz evaluiert, wo wir sowohl quantitativ als auch qualitativ deutlich gegenüber aktuellen State-of-the-Art-Baselines (deep multiview stereo gefolgt von traditioneller TSDF-Fusion) abschneiden. Wir vergleichen unsere 3D-semantische Segmentierung mit vorherigen Methoden, die einen Tiefensensor verwenden, da bisher keine Arbeit das Problem ausschließlich mit RGB-Eingaben angegangen hat.

Atlas: End-to-End 3D-Szenen-Rekonstruktion aus posierten Bildern | Neueste Forschungsarbeiten | HyperAI