HyperAIHyperAI
il y a 2 mois

COCO-GAN : Génération par parties via la coordination conditionnelle

Chieh Hubert Lin; Chia-Che Chang; Yu-Sheng Chen; Da-Cheng Juan; Wei Wei; Hwann-Tzong Chen
COCO-GAN : Génération par parties via la coordination conditionnelle
Résumé

En raison des limitations biologiques, les humains ne peuvent interagir qu'avec une partie de l'environnement qui les entoure. Par conséquent, nous apprenons à raisonner sur les relations spatiales à travers une série d'observations pour reconstituer l'environnement environnant. Inspirés par ce comportement et par le fait que les machines ont également des contraintes de calcul, nous proposons le \underline{CO}nditional \underline{CO}ordinate GAN (COCO-GAN), dont le générateur produit des images par parties en fonction de leurs coordonnées spatiales comme condition. D'autre part, le discriminateur apprend à justifier la réalité à travers plusieurs patchs assemblés en utilisant la cohérence globale, l'apparence locale et la continuité des transitions de bord. Bien que les images complètes ne soient jamais générées pendant l'entraînement, nous montrons que COCO-GAN peut produire des images complètes de \textbf{qualité state-of-the-art} lors de l'inférence. Nous démontrons également une variété d'applications novatrices rendues possibles en enseignant au réseau d'être conscient des coordonnées. Premièrement, nous effectuons une extrapolation vers la variété de coordonnées apprise et générons des patchs hors des limites. En combinant ces patchs avec l'image complète initialement générée, COCO-GAN peut produire des images plus grandes que les échantillons d'entraînement, ce que nous appelons la « génération au-delà des limites ». Nous présentons ensuite la génération de panoramas dans un système de coordonnées cylindriques qui préserve intrinsèquement la topologie cyclique horizontale. Du point de vue du calcul, COCO-GAN intègre un paradigme diviser-pour-régner qui réduit les besoins en mémoire pendant l'entraînement et l'inférence, offre une haute parallélisme et peut générer des parties d'images à la demande.