Einstufiges virtuelles Anprobieren mittels verformbarer Aufmerksamkeitsflüsse

Das Virtuelle Anprobieren zielt darauf ab, ein fotorealistisches Ergebnis einer passenden Kleidung zu generieren, gegeben ein Ladenkleidungsstück und ein Referenzpersonenbild. Bisherige Methoden bauen meist auf mehrstufige Frameworks, um die Verzerrung der Kleidung und die Verschmelzung des Körpers jeweils getrennt zu behandeln, oder verlassen sich stark auf intermediäre, parserbasierte Etiketten, die möglicherweise verrauscht oder sogar ungenau sind. Um diese Herausforderungen zu bewältigen, schlagen wir einen einstufigen Anprobier-Framework vor, indem wir ein neuartiges Deformables Aufmerksamkeitsfluss-Modell (DAFlow) entwickeln, das das deformable-Attention-Schema zur Schätzung mehrerer Flussfelder nutzt. Unter Verwendung von Pose-Knotenpunkten als alleinige Anleitung werden sowohl selbst- als auch kreuzdeformable Aufmerksamkeitsflüsse jeweils für das Referenzpersonenbild und das Kleidungsbild geschätzt. Durch die Stichproben mehrerer Flussfelder werden gleichzeitig informationsreiche Merkmale auf Merkmals- und Pixel-Ebene aus verschiedenen semantischen Bereichen extrahiert und über die Aufmerksamkeitsmechanik verschmolzen. Dies ermöglicht die gleichzeitige Simulation von Kleidungsverzerrung und Körpergenerierung in einer end-to-end-Architektur und führt zu fotorealistischen Ergebnissen. Umfangreiche Experimente auf zwei Anprobier-Datensätzen zeigen, dass unsere Methode sowohl qualitativ als auch quantitativ den Stand der Technik erreicht. Darüber hinaus belegen zusätzliche Experimente auf zwei weiteren Bildbearbeitungsaufgaben die Vielseitigkeit unserer Methode für die Mehransichtssynthese und Bildanimation.