1 个月前

摘要

随着模型预训练过程中计算资源（数据与参数）扩展的边际成本持续显著上升，推理时扩展（Test-Time Scaling, TTS）作为一种提升生成模型性能的有前景方向，逐渐受到关注。该方法通过在推理阶段动态分配额外计算资源，实现性能增强。尽管TTS在多个语言任务中已展现出显著成效，但目前对于图像与视频生成模型（包括基于扩散模型或流模型）在推理阶段的扩展行为，仍缺乏深入理解。尽管近期研究已开始探索视觉任务中的推理时策略，但现有方法仍面临若干关键局限：受限于特定任务领域、可扩展性差，或陷入奖励函数过度优化的问题，从而牺牲生成样本的多样性。本文提出一种新颖、通用且高效的TTS方法——EvoSearch（进化搜索），该方法无需额外训练或模型扩展，即可有效提升扩散模型与流模型在图像与视频生成任务中的可扩展性。EvoSearch将扩散模型与流模型的推理时扩展问题重新建模为一个进化搜索过程，借鉴生物进化的原理，高效探索并优化去噪轨迹。通过设计针对随机微分方程去噪过程的精细化选择与变异机制，EvoSearch在迭代生成更高质量样本的同时，有效维持种群多样性。在图像与视频生成任务中，针对扩散模型与流模型的多种架构进行的广泛实验表明，EvoSearch consistently优于现有方法，在生成质量与样本多样性方面均取得显著提升，并展现出对未见评估指标的强大泛化能力。本项目代码与相关资源已公开，访问地址为：https://tinnerhrhe.github.io/evosearch。

一句话总结

香港科技大学与快手科技的作者提出 EvoSearch，一种通用的测试时扩展框架，将图像和视频生成重新构想为进化搜索问题，通过在去噪轨迹中采用选择性突变来提升质量与多样性，无需重新训练；该方法使 Stable Diffusion 2.1 在人类偏好评估中超越 GPT4o，且一个 1.3B 模型在参数量仅为 10 倍少的情况下，性能超过 14B 和 13B 模型。

主要贡献

尽管测试时扩展（TTS）在语言模型中已取得成功，但其在图像和视频生成模型中的研究仍不充分，现有方法受限于扩展性差、任务特定约束或奖励过优化导致样本多样性下降。
EvoSearch 提出一种通用的 TTS 框架，将去噪过程重新构想为进化搜索过程，利用去噪感知的选择与突变机制，在扩散和流模型中迭代提升样本质量的同时保持多样性。
大量评估表明，EvoSearch 显著优于基线方法，使 Stable Diffusion 2.1 超越 GPT4o，1.3B 模型在参数量仅为 10 倍少的情况下超越 14B 和 Hunyuan 13B 模型，展现出强大的泛化能力与效率。

引言

测试时扩展（TTS）已成为在不增加训练成本的前提下提升生成模型性能的关键方法，尤其在训练扩展面临成本上升与数据限制的背景下。尽管 TTS 在语言模型中已取得成功，但将其应用于图像与视频生成——特别是扩散与流模型——仍具挑战性，因为这些模型在高维、复杂的去噪轨迹中运行。先前方法如 Best-of-N 采样与粒子采样存在效率低下、探索能力有限、可扩展性差等问题，常因依赖固定初始候选样本且缺乏主动发现高奖励状态的机制，难以生成多样且高质量的样本。

作者提出进化搜索（EvoSearch），一种通用的 TTS 框架，将测试时扩展重新构想为进化搜索问题。通过利用针对去噪过程定制的选择与突变机制，EvoSearch 迭代演化样本群体，实现对潜在空间的主动探索，同时保持多样性。该方法在去噪轨迹上动态分配计算资源，随时间降低计算成本，并适用于扩散与流模型，无需模型更新或梯度访问。该方法达到当前最优性能，使小型模型超越大型模型，使 Stable Diffusion 2.1 在人类偏好评估中超越 GPT4o，展现出强大的可扩展性、泛化性与效率。

方法

作者采用统一的测试时扩展框架，将目标分布的采样过程重构为一种主动的进化优化问题，适用于扩散与流模型。该方法的核心称为进化搜索（EvoSearch），将去噪轨迹重新解释为进化路径，其中初始噪声与中间状态被主动演化以发现更高质量的生成结果。该框架通过逐步沿去噪轨迹推进，从初始高斯噪声 $x_T$ 开始，在特定时间步应用进化操作以优化并探索新状态。整个过程由奖励模型引导，用于评估生成样本的质量，从而在状态空间中动态搜索高奖励区域。

该框架围绕一系列进化世代构建。初始阶段从时间步 $T$ 随机采样 $k_{\text{start}}$ 个高斯噪声构成初始种群。随后，根据预设的进化调度 $\mathcal{T}$ ，对种群执行一系列进化操作——选择、突变与适应度评估。进化调度定义了在哪些时间步执行这些操作，使方法能将计算资源集中于去噪过程的关键节点，而非每一步都执行，从而提升效率。种群规模调度 $\mathcal{K}$ 进一步动态调整每代的样本数量，实现计算成本与探索能力之间的灵活权衡。

在每个进化时间步 $t_i$ ，使用奖励模型 $r$ 评估每个父代状态 $x_{t_i}$ 的适应度，该模型基于完全去噪输出 $x_0$ 计算。对干净输出的直接评估提供高保真奖励信号，避免了基于预测估计器带来的不准确性。选择过程采用锦标赛选择，以识别高质量父代，确保最优候选者传递至下一代。为保持种群多样性并防止过早收敛，采用专门的突变策略：保留一组适应度最高的精英父代，并对剩余父代进行突变以探索其邻域。突变操作根据状态性质进行定制：对初始噪声 $x_T$ 采用高斯保持突变，对中间去噪状态 $x_t$ 则采用受反向时间 SDE 启发的突变，以保留潜在状态的内在结构。

该框架设计为通用解决方案，可将现有方法如 Best-of-N 与粒子采样视为特例。当进化调度仅包含初始噪声时间步时，EvoSearch 退化为 Best-of-N；若同时移除初始噪声搜索与突变操作，则退化为粒子采样。这种统一设计使 EvoSearch 能在多种图像与视频生成任务中实现高效且有效的测试时扩展。

实验

在 DrawBench、VBench 与 Videogen-Eval 数据集上，对 EvoSearch 进行大规模文本条件图像与视频生成任务评估，涵盖 Stable Diffusion 2.1（865M）与 Flux.1-dev（12B）等图像模型，以及 HunyuanVideo 与 Wan 等视频模型。
在 DrawBench 上，EvoSearch 在扩散与流模型上均显著优于基线（Best-of-N 与粒子采样），在 Wan 1.3B 上提升达 32.8% 与 14.1%，在 HunyuanVideo 13B 上提升达 23.6% 与 20.6%，均以 VideoReward 为引导。
EvoSearch 在推理时计算量（NFEs）增加时表现出单调性能提升，优于在约 1e4 NFEs 后趋于饱和的基线方法，尤其在 12B Flux.1-dev 模型上表现突出。
EvoSearch 对未见奖励函数具有良好的泛化能力，在 Aesthetic 与 Physics 等分布外指标上保持稳定性能，性能下降极小；而基线方法则出现显著下降。
人类评估显示，EvoSearch 在视觉质量、运动质量、文本对齐与整体质量方面均获得更高胜率。
EvoSearch 同时实现最高多样性（以 CLIP 特征 L2 距离衡量）与最高奖励，优于基线在质量与多样性上的表现。
EvoSearch 使小型模型超越大型模型：SD2.1 搭载 EvoSearch 在 30 秒内推理时间下超越 GPT4o，Wan 1.3B 在 5× 扩展计算下性能达到或超过 Wan 14B 在同等硬件上的表现。

作者使用 EvoSearch 评估 Stable Diffusion 2.1 与 Flux.1-dev 模型的图像生成性能，与基线 Best of N 和 Particle Sampling 对比。结果表明，EvoSearch 在推理计算量增加时持续优于两者，获得更高的 ImageReward 与 ClipScore，即使在显著更低的计算成本下仍超越 GPT4o 的质量。

作者使用 EvoSearch 评估 Stable Diffusion 2.1 与 Flux.1-dev 的图像生成性能，随推理时计算量增加，测量 ClipScore、HPSv2 与 Aesthetic 等多个指标。结果表明，EvoSearch 在更高推理计算下持续提升生成质量，优于趋于饱和的基线方法，在所有指标上均表现更优，同时保持更高多样性。

作者使用 EvoSearch 评估 HunyuanVideo 13B 与 Wan2.1 1.3B 模型的视频生成性能，与 Best of N 和 Particle Sampling 对比。结果表明，EvoSearch 在两个模型上均获得更高的归一化 VideoReward 分数，分别提升 1.54 与 1.35，而基线方法表现更低或相当。

作者使用 Wan 1.3B 与 Wan 14B 模型在视频生成任务上评估 EvoSearch，以 VideoReward 为引导指标。结果表明，Wan 1.3B 搭载 EvoSearch 后的 VideoReward 显著高于更大的 Wan 14B 模型，证明 EvoSearch 能使小模型在等效推理时间内超越大模型。

作者使用 EvoSearch 评估其在奖励与多样性上的表现，与基线方法对比。结果表明，EvoSearch 在奖励与多样性得分上均达到最高，优于 Best of N 与 Particle Sampling。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

1 个月前

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di

摘要

一句话总结

主要贡献

尽管测试时扩展（TTS）在语言模型中已取得成功，但其在图像和视频生成模型中的研究仍不充分，现有方法受限于扩展性差、任务特定约束或奖励过优化导致样本多样性下降。
EvoSearch 提出一种通用的 TTS 框架，将去噪过程重新构想为进化搜索过程，利用去噪感知的选择与突变机制，在扩散和流模型中迭代提升样本质量的同时保持多样性。
大量评估表明，EvoSearch 显著优于基线方法，使 Stable Diffusion 2.1 超越 GPT4o，1.3B 模型在参数量仅为 10 倍少的情况下超越 14B 和 Hunyuan 13B 模型，展现出强大的泛化能力与效率。

引言

方法

实验

在 DrawBench、VBench 与 Videogen-Eval 数据集上，对 EvoSearch 进行大规模文本条件图像与视频生成任务评估，涵盖 Stable Diffusion 2.1（865M）与 Flux.1-dev（12B）等图像模型，以及 HunyuanVideo 与 Wan 等视频模型。
在 DrawBench 上，EvoSearch 在扩散与流模型上均显著优于基线（Best-of-N 与粒子采样），在 Wan 1.3B 上提升达 32.8% 与 14.1%，在 HunyuanVideo 13B 上提升达 23.6% 与 20.6%，均以 VideoReward 为引导。
EvoSearch 在推理时计算量（NFEs）增加时表现出单调性能提升，优于在约 1e4 NFEs 后趋于饱和的基线方法，尤其在 12B Flux.1-dev 模型上表现突出。
EvoSearch 对未见奖励函数具有良好的泛化能力，在 Aesthetic 与 Physics 等分布外指标上保持稳定性能，性能下降极小；而基线方法则出现显著下降。
人类评估显示，EvoSearch 在视觉质量、运动质量、文本对齐与整体质量方面均获得更高胜率。
EvoSearch 同时实现最高多样性（以 CLIP 特征 L2 距离衡量）与最高奖励，优于基线在质量与多样性上的表现。
EvoSearch 使小型模型超越大型模型：SD2.1 搭载 EvoSearch 在 30 秒内推理时间下超越 GPT4o，Wan 1.3B 在 5× 扩展计算下性能达到或超过 Wan 14B 在同等硬件上的表现。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

通过测试时进化搜索实现图像与视频生成的扩展

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过测试时进化搜索实现图像与视频生成的扩展

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过测试时进化搜索实现图像与视频生成的扩展

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di

He Haoran Liang Jiajun Wang Xintao Wan Pengfei Zhang Di