I2L-MeshNet: Bild-zu-Lixel-Vorhersagenetzwerk für die genaue 3D-Menschenpose- und Mesh-Schätzung aus einem einzelnen RGB-Bild

Die meisten bisherigen bildbasierten Methoden zur Schätzung von 3D-Gesten und Mesh-Modellen menschlicher Körper schätzen die Parameter des menschlichen Mesh-Modells direkt aus einem Eingabebild. Die direkte Regression der Parameter aus dem Eingabebild stellt jedoch eine stark nichtlineare Abbildung dar, da dabei die räumlichen Beziehungen zwischen den Pixeln im Eingabebild verloren gehen. Zudem kann diese Herangehensweise die Vorhersageunsicherheit nicht modellieren, was das Training erschweren kann. Um diese Probleme zu lösen, schlagen wir I2L-MeshNet, ein Netzwerk für die Bild-zu-Lixel-(Linie+Pixel)-Vorhersage, vor. Im Gegensatz zur direkten Regression der Parameter berechnet das vorgeschlagene I2L-MeshNet die Wahrscheinlichkeit pro Lixel auf eindimensionalen Heatmaps für jede Koordinate eines Mesh-Knotens. Die auf Lixel basierenden eindimensionalen Heatmaps bewahren die räumlichen Beziehungen im Eingabebild und ermöglichen zudem die Modellierung der Vorhersageunsicherheit. Wir zeigen die Vorteile der Bild-zu-Lixel-Vorhersage und belegen, dass das vorgeschlagene I2L-MeshNet die Leistung bisheriger Methoden übertrifft. Der Quellcode ist öffentlich verfügbar unter: https://github.com/mks0601/I2L-MeshNet_RELEASE.