HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA TensorRT 优化 Stable Diffusion 3.5,大幅提高 RTX GPU 性能并降低显存需求

NVIDIA与Stability AI合作,通过其最新版本的TensorRT软件开发工具包(SDK)大幅提升了Stable Diffusion 3.5模型在GeForce RTX和RTX PRO GPUs上的性能,同时显著降低了VRAM(视频随机访问内存)需求。这项改进使得该模型在生成和编辑图像时更快更高效,对硬件的要求也更低。 随着AI模型的能力和复杂性的不断增加,它们所需的VRAM也随之增加。例如,最新的Stable Diffusion 3.5大型模型需要超过18GB的VRAM来运行,这限制了能够良好支持它的系统数量。为了解决这个问题,NVIDIA将模型量化到了FP8格式,此举将VRAM消耗减少了40%,降至11GB,从而使更多GPU能够从内存中直接运行该模型。此外,对于Stable Diffusion 3.5的大型和中型模型,NVIDIA还通过TensorRT进行了一系列优化,使这些模型在RTX GPU上运行得更加高效。具体来说,FP8 TensorRT在Stable Diffusion 3.5大型模型上提供了2.3倍的性能提升,同时减少了40%的内存使用;而在中型模型上,BF16 TensorRT则带来1.7倍的速度提升。 为了更好地适应RTX AI PC,NVIDIA重新设计了TensorRT,将其变成了一个更小、更容易集成的SDK。这个新版本支持即时(Just-In-Time, JIT)设备引擎构建,使开发者可以在几秒钟内创建出适合不同GPU的优化引擎,而不再需要提前为每一类GPU单独生成并打包。这对于拥有超过1亿台RTX AI PC的广大用户群体而言,意味着更无缝和高效的AI模型部署体验。 此外,NVIDIA和Stability AI正在合作,将Stable Diffusion 3.5模型作为NVIDIA NIM微服务发布,计划于今年7月推出。这一微服务将简化创作者和开发者访问及部署该模型的过程,使其适用于各类应用开发。优化后的模型已经在Stability AI的Hugging Face页面上线。 TensorRT for RTX独立SDK已于微软Build大会宣布,现已正式发布。开发者可以访问NVIDIA开发者页面下载该独立SDK,或者尝试通过Windows ML预览版调用它。此次发布标志着AI开发进入了一个新时代,开发者的效率将大幅提升,同时硬件资源的利用也将更加合理。 行业人士表示,这次NVIDIA与Stability AI的合作不仅极大地推动了生成式AI技术的发展,也为数百万RTX AI PC用户带来了福音。优化后的Stable Diffusion 3.5模型不仅在性能上有了显著提升,而且对硬件资源的需求大大降低,使得更多用户能够享受到高质量的AI内容创作体验。NVIDIA作为全球领先的GPU制造商,以其强大的技术实力和创新能力,不断引领AI领域的进步,本次发布的TensorRT for RTX SDK再次证明了这一点。

相关链接

NVIDIA TensorRT 优化 Stable Diffusion 3.5,大幅提高 RTX GPU 性能并降低显存需求 | 热门资讯 | HyperAI超神经