Textgesteuerte 3D-Menschenerzeugung aus 2D-Sammlungen

Die 3D-Menschendarstellung wird in der Spielentwicklung, im Film und in der Animation häufig zur interaktiven Gestaltung eingesetzt. Die Anpassung dieser Charaktere ist für Kreativität und Skalierbarkeit entscheidend, was die Bedeutung von Steuerbarkeit unterstreicht. In dieser Arbeit stellen wir Textgesteuerte 3D-Menschen-Generierung (\texttt{T3H}) vor, bei der ein Modell einen 3D-Menschen auf Basis einer Modedescription erzeugt. Es gibt zwei Ziele: 1) der 3D-Mensch sollte klar und präzise gerendert werden, und 2) seine Kleidung wird durch den gegebenen Text gesteuert. Um diese \texttt{T3H}-Aufgabe zu lösen, schlagen wir die Kompositionale Kreuzmodalen Menschendarstellung (CCH) vor. CCH verwendet kreuzmodale Aufmerksamkeit, um die kompositionale Menschendarstellung mit den extrahierten Mode-Semantiken zu fusionieren. Jeder Teil des menschlichen Körpers nimmt relevante textuelle Anleitungen als visuelle Muster wahr. Wir integrieren das menschliche Vorwissen und semantische Diskriminierung, um die Transformation der 3D-Geometrie und die feingranulare Konsistenz zu verbessern, was es ermöglicht, aus 2D-Sammlungen effizient zu lernen. Wir führen Bewertungen auf DeepFashion und SHHQ durch, wobei eine Vielzahl von Modeattributen berücksichtigt werden, die Form, Material und Farbe von Ober- und Unterbekleidung abdecken. Ausführliche Experimente zeigen, dass CCH bei \texttt{T3H} hoch effiziente überlegene Ergebnisse erzielt.