Ein leichtgewichtiger Graph-Transformer-Netzwerk für die Rekonstruktion von menschlichen Meshes aus 2D-Mensch-Pose

Bestehende Ansätze zur Rekonstruktion von menschlichen Meshes auf Basis des tiefen Lernens neigen dazu, größere Netzwerke zu bauen, um eine höhere Genauigkeit zu erzielen. Die Rechenkomplexität und die Modellgröße werden oft vernachlässigt, obwohl sie entscheidende Merkmale für die praktische Anwendung von Modellen zur Rekonstruktion von menschlichen Meshes sind (z.B. virtuelle Anprobiersysteme). In dieser Arbeit stellen wir GTRS vor, eine leichte, auf Pose basierende Methode, die es ermöglicht, ein 3D-Mesh aus einer 2D-Pose eines Menschen zu rekonstruieren. Wir schlagen ein Pose-Analyse-Modul vor, das Graph-Transformern verwendet, um strukturierte und implizite Gelenk-Korrelationen auszunutzen, sowie ein Mesh-Regression-Modul, das das extrahierte Pose-Feature mit dem Mesh-Vorlage kombiniert, um das endgültige 3D-Mesh zu rekonstruieren. Durch umfangreiche Evaluierungen auf den Datensätzen Human3.6M und 3DPW zeigen wir die Effizienz und Generalisierungsfähigkeit von GTRS. Insbesondere erreicht GTRS eine höhere Genauigkeit als die derzeit beste posebasierte Methode Pose2Mesh, während es nur 10,2 % der Parameter (Params) und 2,5 % der FLOPs auf dem anspruchsvollen in-the-wild-Datensatz 3DPW verwendet. Der Code wird öffentlich zugänglich gemacht.