Kreuz-Attention entkoppelter Modalitäten für die 3D-Human-Mesh-Rekonstruktion mit Transformers

Transformer-Encoder-Architekturen haben in jüngster Zeit bahnbrechende Ergebnisse bei der monokularen 3D-Menschengitter-Rekonstruktion erzielt, erfordern jedoch eine erhebliche Anzahl an Parametern und rechenintensive Operationen. Aufgrund des hohen Speicherverbrauchs und der langsamen Inferenzgeschwindigkeit ist die praktische Anwendung solcher Modelle schwierig. In diesem Paper stellen wir eine neuartige Transformer-Encoder-Decoder-Architektur für die 3D-Menschengitter-Rekonstruktion aus einer einzigen Bildaufnahme vor, die wir FastMETRO nennen. Wir identifizieren den Leistungsengpass in Encoder-basierten Transformers als Folge der Token-Designs, die komplexe Wechselwirkungen zwischen den Eingabetokens verursachen. Durch die Entkopplung der Interaktionen mittels einer Encoder-Decoder-Architektur ermöglicht unser Modell eine deutlich geringere Anzahl an Parametern und eine kürzere Inferenzzeit. Zudem integrieren wir vorherige Kenntnisse über die morphologischen Beziehungen des menschlichen Körpers über Aufmerksamkeitsmaskierung und Gitter-Verfeinerungsoperationen, was zu schnellerer Konvergenz und höherer Genauigkeit führt. Unser FastMETRO verbessert die Pareto-Front von Genauigkeit und Effizienz und übertrifft Bild-basierte Methoden deutlich auf den Datensätzen Human3.6M und 3DPW. Darüber hinaus bestätigen wir die Allgemeingültigkeit unseres Ansatzes anhand des Datensatzes FreiHAND.