Was lernen Single-View 3D-Rekonstruktionsnetze?

Faltungsnetze für die Rekonstruktion von Objekten aus einer einzigen Ansicht haben beeindruckende Leistungen gezeigt und sind zu einem beliebten Forschungsthema geworden. Alle existierenden Techniken teilen sich die Idee, einen Encoder-Decoder-Netzwerk zu verwenden, das nicht-triviale Schlussfolgerungen über die 3D-Struktur des Ausgaberaums zieht. In dieser Arbeit stellen wir zwei alternative Ansätze vor, die jeweils Bildklassifizierung und -retrieval durchführen. Diese einfachen Baselines erzielen bessere Ergebnisse als die derzeit besten Methoden, sowohl qualitativ als auch quantitativ. Wir zeigen, dass Encoder-Decoder-Methoden statistisch nicht von diesen Baselines zu unterscheiden sind, was darauf hinweist, dass der aktuelle Stand der Technik bei der Rekonstruktion von Objekten aus einer einzigen Ansicht tatsächlich keine Rekonstruktion durchführt, sondern Bildklassifizierung. Wir identifizieren Aspekte populärer experimenteller Verfahren, die dieses Verhalten hervorrufen, und diskutieren Wege zur Verbesserung des aktuellen Forschungsstands.