Command Palette
Search for a command to run...
Foveated Diffusion:高效的空间自适应图像与视频生成
Foveated Diffusion:高效的空间自适应图像与视频生成
Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein
摘要
扩散模型(Diffusion)与流匹配(Flow Matching)模型在交互式图像与流式视频生成等创意内容创作领域,已展现出前所未有的能力。然而,随着对分辨率、帧率及上下文长度需求的不断提升,高效生成面临日益严峻的挑战,因为计算复杂度随生成 token 数量呈二次方增长。本研究旨在优化生成过程的效率,特别是在已知或可估计用户注视位置的场景下(例如通过眼动追踪技术实现)。在此类场景中,我们利用人类视觉的偏心距依赖性(eccentricity-dependent)视觉敏锐度特性:用户仅在注视点周围极小区域(即中央凹区域,foveal region)内感知到极高分辨率的视觉信息,而在视野周边区域,细节分辨能力迅速下降。我们的方法首先构建一个模拟中央凹分辨率的掩码,以实现 token 的非均匀分配:在中央凹区域分配更高的 token 密度,而在周边区域分配更低的密度。图像或视频在混合分辨率 token 设置下生成,其结果在感知上与全分辨率生成无异,同时大幅降低了 token 数量与生成时间。为此,我们提出了一种基于理论原则的机制,能够直接从高分辨率数据构建混合分辨率 token,使得中央凹扩散模型(foveated diffusion model)可在现有基础模型上进行后训练(post-training),同时保持不同分辨率间的内容一致性。通过广泛的分析与精心设计的用户研究,我们验证了该方法的有效性,证明了“中央凹采样”(foveation)作为一种实用且可扩展的维度,能够显著提升生成效率。