Command Palette
Search for a command to run...
Foveated Diffusion: Effiziente räumlich adaptive Bild- und Videogenerierung
Foveated Diffusion: Effiziente räumlich adaptive Bild- und Videogenerierung
Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein
Zusammenfassung
Diffusions- und Flow-Matching-Modelle haben beispiellose Fähigkeiten für die Erstellung kreativer Inhalte erschlossen, wie etwa die interaktive Bildgenerierung und die Erzeugung von Streaming-Videos. Der steigende Bedarf an höheren Auflösungen, Bildraten und Kontextlängen macht eine effiziente Generierung jedoch zunehmend herausfordernd, da die rechnerische Komplexität quadratisch mit der Anzahl der generierten Tokens wächst. Unsere Arbeit zielt darauf ab, die Effizienz des Generierungsprozesses in Szenarien zu optimieren, in denen die Blickposition des Nutzers bekannt oder schätzbar ist, beispielsweise durch Eye-Tracking. In solchen Szenarien nutzen wir die exzentrizitätsabhängige Sehschärfe des menschlichen Sehens aus: Während ein Nutzer in einem kleinen Bereich um die Blickposition herum (dem fovealen Bereich) visuelle Informationen mit sehr hoher Auflösung wahrnimmt, nimmt die Fähigkeit zur Detailauflösung im peripheren Gesichtsfeld rasch ab. Unser Ansatz beginnt mit einer Maske, die die foveale Auflösung modelliert, um Tokens nicht-uniform zuzuweisen – mit einer höheren Token-Dichte in fovealen Bereichen und einer niedrigeren Dichte in peripheren Bereichen. Ein Bild oder Video wird in einem Token-Setting mit gemischter Auflösung generiert, was Ergebnisse liefert, die für das menschliche Auge von einer Vollauflösungs-Generierung nicht unterscheidbar sind, während die Token-Anzahl und die Generierungszeit drastisch reduziert werden. Zu diesem Zweck entwickeln wir ein fundiertes Mechanismus zur direkten Konstruktion von Tokens mit gemischter Auflösung aus hochauflösenden Daten, wodurch ein foveales Diffusionsmodell nachträglich auf einem bestehenden Basis-Modell trainiert werden kann, wobei die Inhaltskonsistenz über verschiedene Auflösungen hinweg erhalten bleibt. Wir validieren unseren Ansatz durch umfangreiche Analysen und eine sorgfältig gestaltete Nutzerstudie und zeigen damit die Wirksamkeit der Foveation als einen praktikablen und skalierbaren Ansatz für eine effiziente Generierung.