Eine effektive Verlustfunktion zur Generierung von 3D-Modellen aus einzelnen 2D-Bildern ohne Rendering

Differenzierbares Rendering ist eine äußerst erfolgreiche Technik, die für die Einzelansicht-3D-Rekonstruktion geeignet ist. Aktuelle Renderverfahren nutzen Verlustfunktionen basierend auf Pixeln zwischen einer gerenderten Abbildung eines rekonstruierten 3D-Objekts und der Referenzabbildung aus einer entsprechenden, vorgegebenen Ansicht, um die Parameter der 3D-Form zu optimieren. Diese Modelle erfordern einen Rendering-Schritt sowie die Behandlung von Sichtbarkeit und die Auswertung des Schattierungsmodells. Ziel dieses Papers ist es zu zeigen, dass diese Schritte entfallen können, ohne dass die Rekonstruktionsqualität beeinträchtigt wird – im Gegenteil: Die Ergebnisse erreichen oder übertreffen sogar die der derzeit besten kategorispezifischen Rekonstruktionsmethoden. Zunächst verwenden wir dieselbe CNN-Architektur zur Vorhersage einer Punktewolke und zur Schätzung der Pose, wie sie von Insafutdinov & Dosovitskiy eingesetzt wurde. Anschließend schlagen wir eine neuartige, effektive Verlustfunktion vor, die bewertet, wie gut die Projektionen der rekonstruierten 3D-Punktewolken die Silhouette des Referenzobjekts abdecken. Anschließend wenden wir die Poisson-Flächenrekonstruktion an, um die rekonstruierte Punktewolke in ein 3D-Mesh zu transformieren. Schließlich führen wir eine GAN-basierte Texturabbildung auf dem spezifischen 3D-Mesh durch und generieren aus einem einzigen 2D-Bild ein texturiertes 3D-Mesh. Wir evaluieren unsere Methode an verschiedenen Datensätzen (einschließlich ShapeNet, CUB-200-2011 und Pascal3D+) und erreichen state-of-the-art-Ergebnisse, die alle anderen überwachten und unüberwachten Methoden sowie 3D-Darstellungen in Bezug auf Leistung, Genauigkeit und Trainingszeit übertrumpfen.