HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Jetson AGX Thor赋能边缘计算:生成式AI性能提升7倍,驱动智能新范式

NVIDIA最新发布消息称,其Jetson AGX Thor平台通过持续的软件优化,已实现生成式AI性能提升达7倍。该平台自8月发布以来,凭借不断迭代的软件更新,尤其在vLLM容器版本中,性能较初始版本提升3.5倍。结合新型推测解码技术,如EAGLE-3,实际测试中Llama 3.3 70B模型在W4A16量化格式下,输出速度从41.5提升至88.62 tokens/sec,实现7倍加速。 Jetson AGX Thor支持主流量化格式,包括NVIDIA Blackwell架构推出的NVFP4,以及FP8和W4A16。FP8适用于对精度要求较高的通用任务,损失低于1%,是优化起点;W4A16则通过4位权重与16位激活的组合,使1750亿参数模型也能在单卡上运行,支持多模型并行部署,显著提升边缘端大模型承载能力。 推测解码技术进一步释放性能潜力。通过使用小型“草稿模型”快速生成候选文本,再由大模型统一验证,实现批量生成,大幅降低延迟。实验表明,EAGLE-3技术在Llama 3.3 70B模型上带来2.5倍吞吐提升,从6.27提升至16.19 tokens/sec。 NVIDIA还提供“Day 0”支持,确保新模型如gpt-oss、NVIDIA Nemotron系列等在发布当日即可在Jetson Thor上运行。开发者可借助vLLM容器快速部署,并通过命令行启用推测解码功能。 为实现最佳性能,建议遵循三步流程:首先建立高质量基线,使用FP16或FP8加载模型;其次逐步量化至W4A16,验证精度是否达标;最后在真实场景下进行高并发、长上下文等压力测试,确认性能表现。 NVIDIA已推出每月更新的vLLM独立容器,简化部署流程。开发者可立即获取Jetson AGX Thor开发套件,搭配最新JetPack 7系统,开启边缘端高效生成式AI开发之旅。

相关链接