10 天前

Llama-Nemotron:高效推理模型

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, et al
Llama-Nemotron:高效推理模型
摘要

我们推出Llama-Nemotron系列模型,这是一组开源的异构推理模型家族,具备卓越的推理能力、高效的推理性能,并提供适用于企业用途的开放许可。该系列包含三种规模:Nano(80亿参数)、Super(490亿参数)和Ultra(2530亿参数),其性能在与当前顶尖推理模型(如DeepSeek-R1)相媲美之余,还展现出更优的推理吞吐量与内存效率。在本报告中,我们详细介绍这些模型的训练流程:首先基于Llama 3模型进行神经架构搜索,以实现加速推理;随后通过知识蒸馏与持续预训练,再进入以推理能力为核心的后训练阶段,该阶段包含两个主要部分:监督微调与大规模强化学习。Llama-Nemotron模型是首个支持动态推理切换的开源模型,用户可在推理过程中自由在标准对话模式与推理模式之间切换。为进一步推动开源研究并促进模型开发,我们提供以下资源:1. 我们在商业友好型的NVIDIA开放模型许可协议(NVIDIA Open Model License Agreement)下,发布Llama-Nemotron推理模型——LN-Nano、LN-Super与LN-Ultra;2. 我们发布完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset;3. 我们还开源了训练代码库:NeMo、NeMo-Aligner与Megatron-LM。