Command Palette
Search for a command to run...
InfGen: Ein auflösungsunabhängiger Ansatz für skalierbare Bildsynthese
Tao Han Wanghan Xu Junchao Gong Xiaoyu Yue Song Guo Luping Zhou Lei Bai

Abstract
Die generische Auflösungsbildgenerierung bietet eine konsistente visuelle Erfahrung über verschiedene Geräte hinweg und weist umfangreiche Anwendungsmöglichkeiten sowohl für Produzenten als auch für Verbraucher auf. Aktuelle Diffusionsmodelle erhöhen die Rechenanforderungen quadratisch mit der Auflösung, was zu Verzögerungen bei der Generierung von 4K-Bildern von über 100 Sekunden führt. Um dieses Problem zu lösen, erforschen wir die zweite Generation der latenzbasierten Diffusionsmodelle, bei denen die durch das Diffusionsmodell generierte feste Latenz als Inhaltssrepräsentation betrachtet wird. Wir schlagen vor, Bilder mit beliebiger Auflösung mit einer kompakten, vorgegebenen Latenz mittels eines einstufigen Generators zu dekodieren. Hierdurch präsentieren wir InfGen, das den VAE-Decoder durch einen neuen Generator ersetzt und die Erzeugung von Bildern beliebiger Auflösung aus einer festen Latenzgröße ermöglicht, ohne die Diffusionsmodelle neu zu trainieren. Dies vereinfacht den Prozess, reduziert die Rechenkomplexität und ist auf beliebige Modelle anwendbar, die denselben Latenzraum nutzen. Experimente zeigen, dass InfGen in der Lage ist, zahlreiche bestehende Modelle in das Zeitalter beliebiger hochauflösender Bilder zu führen, während gleichzeitig die Generierungszeit für 4K-Bilder auf unter 10 Sekunden sinkt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.