Pose-gesteuerte Personenbildgenerierung

Dieses Papier stellt das neuartige Pose-Guided-Person-Generation-Netzwerk (PG$^2$) vor, das es ermöglicht, Personenbilder in beliebigen Posen auf der Grundlage eines Bildes dieser Person und einer neuen Posen zu synthetisieren. Unser Generierungsrahmen PG$^2$ nutzt die Poseninformation explizit und besteht aus zwei wesentlichen Phasen: Posenintegration und Bilderfeinerung. Im ersten Stadium werden das Eingangsbild und die Zielpose in ein U-Net-artiges Netzwerk eingespeist, um ein anfängliches, aber grobes Bild der Person mit der Zielpose zu generieren. Die zweite Phase verfeinert dann das anfängliche und unscharfe Ergebnis durch die adversarische Training eines U-Net-artigen Generators. Ausführliche experimentelle Ergebnisse sowohl für 128$\times$64 Wiedererkennungsbilder als auch für 256$\times$256 Moded Fotos zeigen, dass unser Modell hochwertige Personenbilder mit überzeugenden Details erzeugt.