HyperAI超神经

7 个月前

NVIDIA最新发布消息称，其Jetson AGX Thor平台通过持续的软件优化，已实现生成式AI性能提升达7倍。该平台自8月发布以来，凭借不断迭代的软件更新，尤其在vLLM容器版本中，性能较初始版本提升3.5倍。结合新型推测解码技术，如EAGLE-3，实际测试中Llama 3.3 70B模型在W4A16量化格式下，输出速度从41.5提升至88.62 tokens/sec，实现7倍加速。 Jetson AGX Thor支持主流量化格式，包括NVIDIA Blackwell架构推出的NVFP4，以及FP8和W4A16。FP8适用于对精度要求较高的通用任务，损失低于1%，是优化起点；W4A16则通过4位权重与16位激活的组合，使1750亿参数模型也能在单卡上运行，支持多模型并行部署，显著提升边缘端大模型承载能力。推测解码技术进一步释放性能潜力。通过使用小型“草稿模型”快速生成候选文本，再由大模型统一验证，实现批量生成，大幅降低延迟。实验表明，EAGLE-3技术在Llama 3.3 70B模型上带来2.5倍吞吐提升，从6.27提升至16.19 tokens/sec。 NVIDIA还提供“Day 0”支持，确保新模型如gpt-oss、NVIDIA Nemotron系列等在发布当日即可在Jetson Thor上运行。开发者可借助vLLM容器快速部署，并通过命令行启用推测解码功能。为实现最佳性能，建议遵循三步流程：首先建立高质量基线，使用FP16或FP8加载模型；其次逐步量化至W4A16，验证精度是否达标；最后在真实场景下进行高并发、长上下文等压力测试，确认性能表现。 NVIDIA已推出每月更新的vLLM独立容器，简化部署流程。开发者可立即获取Jetson AGX Thor开发套件，搭配最新JetPack 7系统，开启边缘端高效生成式AI开发之旅。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

Command Palette

NVIDIA Jetson AGX Thor赋能边缘计算：生成式AI性能提升7倍，驱动智能新范式

相关链接

Command Palette

NVIDIA Jetson AGX Thor赋能边缘计算：生成式AI性能提升7倍，驱动智能新范式

相关链接

Command Palette

NVIDIA Jetson AGX Thor赋能边缘计算：生成式AI性能提升7倍，驱动智能新范式

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法