Sampling ist die Essenz: Punktegesteuerte 3D-Menschliches-Gitter-Rekonstruktion

Dieses Papier präsentiert eine einfache, aber dennoch leistungsfähige Methode zur 3D-Menschennetz-Rekonstruktion aus einem einzelnen RGB-Bild. In jüngster Zeit wurden die nicht-lokalen Interaktionen aller Netzpunkte (Vertices) des 3D-Netzes (Mesh) effektiv in Transformatoren geschätzt, während die Beziehungen zwischen Körperteilen auch durch Graphmodelle angegangen wurden. Obwohl diese Ansätze bemerkenswerte Fortschritte bei der 3D-Menschennetz-Rekonstruktion gezeigt haben, ist es immer noch schwierig, die Beziehung zwischen den aus dem 2D-Eingangsbild kodierten Merkmalen und den 3D-Koordinaten jedes Netzpunkts direkt zu inferieren. Um dieses Problem zu lösen, schlagen wir ein einfaches Merkmalsabtastverfahren vor. Die Kernidee besteht darin, Merkmale im eingebetteten Raum anhand von Punkten abzutasten, die als Projektionsresultate der 3D-Netzpunkte (d.h., Ground Truth) geschätzt werden. Dies hilft dem Modell, sich stärker auf vertex-relevante Merkmale im 2D-Raum zu konzentrieren und führt somit zur Rekonstruktion natürlicher Körperhaltungen. Darüber hinaus wenden wir fortschreitende Aufmerksamkeitsmaskierung an, um lokale Interaktionen zwischen Netzpunkten selbst bei starken Verdeckungen präzise zu schätzen. Experimentelle Ergebnisse auf Benchmark-Datensätzen zeigen, dass die vorgeschlagene Methode die Leistung der 3D-Menschennetz-Rekonstruktion effizient verbessert. Der Code und das Modell sind öffentlich verfügbar unter: https://github.com/DCVL-3D/PointHMR_release.注释:- "Vertex" 翻译为 "Netzpunkt",这是在计算机图形学中常用的术语。- "Ground Truth" 翻译为 "Ground Truth",因为这个术语在德语中也常用英文形式。- "Progressive Attention Masking" 翻译为 "fortschreitende Aufmerksamkeitsmaskierung",以保持专业性和流畅性。