PIFuHD: Mehrstufige pixelbasierte implizite Funktion für die hochaufgelöste 3D-Digitalisierung von Menschen

Kürzliche Fortschritte bei der bildbasierten 3D-Menschform-Schätzung wurden durch die erhebliche Verbesserung der Darstellungskraft, die tiefen neuronale Netze bieten, getrieben. Obwohl aktuelle Ansätze das Potenzial in realen Anwendungsszenarien gezeigt haben, scheitern sie noch immer daran, Rekonstruktionen mit dem Detailgrad zu erstellen, der oft in den Eingabebildern vorhanden ist. Wir argumentieren, dass diese Einschränkung hauptsächlich aus zwei widersprüchlichen Anforderungen resultiert: Genaue Vorhersagen erfordern einen großen Kontext, während präzise Vorhersagen eine hohe Auflösung benötigen. Aufgrund von Speicherbeschränkungen in der aktuellen Hardware neigen vorherige Ansätze dazu, Bilder mit niedriger Auflösung als Eingabe zu verwenden, um einen großen räumlichen Kontext abzudecken, und produzieren daher weniger präzise (oder niedrig aufgelöste) 3D-Schätzungen. Wir begegnen dieser Einschränkung durch die Formulierung einer mehrstufigen Architektur, die von Anfang bis Ende trainierbar ist. Eine grobe Stufe betrachtet das gesamte Bild in niedriger Auflösung und konzentriert sich auf ganzheitliches Denken. Dies bietet den Kontext für eine feine Stufe, die durch Betrachtung hochaufgelöster Bilder eine hochdetaillierte Geometrie schätzt. Wir zeigen, dass unser Ansatz bei der 3D-Menschform-Schätzung aus einzelnen Bildern durch vollständiges Nutzen von 1k-Auflösungs-Eingabebildern signifikant bessere Ergebnisse liefert als bestehende state-of-the-art-Techniken.