3 天前

摘要

扩散模型（Diffusion）与流匹配（Flow Matching）模型在交互式图像与流式视频生成等创意内容创作领域，已展现出前所未有的能力。然而，随着对分辨率、帧率及上下文长度需求的不断提升，高效生成面临日益严峻的挑战，因为计算复杂度随生成 token 数量呈二次方增长。本研究旨在优化生成过程的效率，特别是在已知或可估计用户注视位置的场景下（例如通过眼动追踪技术实现）。在此类场景中，我们利用人类视觉的偏心距依赖性（eccentricity-dependent）视觉敏锐度特性：用户仅在注视点周围极小区域（即中央凹区域，foveal region）内感知到极高分辨率的视觉信息，而在视野周边区域，细节分辨能力迅速下降。我们的方法首先构建一个模拟中央凹分辨率的掩码，以实现 token 的非均匀分配：在中央凹区域分配更高的 token 密度，而在周边区域分配更低的密度。图像或视频在混合分辨率 token 设置下生成，其结果在感知上与全分辨率生成无异，同时大幅降低了 token 数量与生成时间。为此，我们提出了一种基于理论原则的机制，能够直接从高分辨率数据构建混合分辨率 token，使得中央凹扩散模型（foveated diffusion model）可在现有基础模型上进行后训练（post-training），同时保持不同分辨率间的内容一致性。通过广泛的分析与精心设计的用户研究，我们验证了该方法的有效性，证明了“中央凹采样”（foveation）作为一种实用且可扩展的维度，能够显著提升生成效率。

源 PDF