HyperAI超神经
Back to Headlines

科学家新方法显著加速视频生成,H100和A100性能提升超一倍

2 days ago

科学家们提出了一种新的视频生成模型加速方法,并在NVIDIA H100和A100两种GPU上实现了显著的效果。这种方法的核心创新在于对隐空间中的tokens重新排列为视频结构,即按照时间、高度、宽度([t, h, w])的格式进行reshape。接着,研究团队对reshaped的query和key进行采样,利用平均池化操作构建一个低分辩率的注意力图。这个草图注意力图能够高效捕捉视频中的关键区域,同时识别并排除掉多余的计算部分。 通过这种方式,研究团队能够在几乎不影响生成质量的前提下,大幅减少注意力模块的计算开销。根据实验结果,Draft Attention在这个新框架下,在保障生成质量的同时,分别在H100和A100 GPU上实现了1.75倍和2倍的端到端加速效果。这项工作不仅提出了一种无需重新训练即可快速集成应用的加速框架,也为高质量视频生成开辟了新的思路。 这项技术具有广泛的应用前景,尤其是在对生成效率和计算资源需求较高的场景中,如电影制作、虚拟现实、数字人等领域都有极高的价值。预计未来两年内,该技术可能会被广泛应用于提高视频生成平台的效率,降低内容创作者使用AI生成高质量视频的门槛。此外,这种轻量级、高效的注意力建模机制还有望扩展至超清图像生成、视频编辑、三维建模等多项视觉生成任务,进一步推动这些领域的进步和发展。 为了进一步提升计算效率,研究团队基于腾讯开源的视频生成模型HunyuanVideo进行了实测,通过引入Max Pooling机制,在20%的稀疏度条件下成功生成了高质量的视频。初步结果显示,视频扩展过程中存在大量重复计算,远超出研究团队最初预期。随后,他们发现当满足pool_h × pool_w = block_size条件时,可以更高效地与现有的高效注意力框架兼容,使注意力计算在GPU上得以高效执行。 新的挑战也随之而来,即由草图注意力图引导的稀疏注意力建模在原始空间中是分散分布的,这导致了难以直接高效执行。因此,研究团队设计了一种重排策略,将这些稀疏块聚集为连续的内存布局,使得注意力建模能够集中在少数重要区域而不会浪费计算资源。 总之,这项研究为大规模、高质量视觉生成提供了新的高效实现思路。通过减少不必要的计算负载,研究团队不仅加快了视频生成的速度,还提高了整体的计算资源利用率,为未来的视觉生成技术发展奠定了基础。

Related Links