Command Palette
Search for a command to run...

摘要
我们推出Nemotron Nano V2 VL,这是Nemotron视觉语言系列的最新模型,专为强大的现实世界文档理解、长视频理解及推理任务而设计。与此前的Llama-3.1-Nemotron-Nano-VL-8B模型相比,Nemotron Nano V2 VL在视觉与文本所有领域均实现显著提升,这得益于模型架构、数据集以及训练方法的全面优化。该模型基于Nemotron Nano V2——一种混合Mamba-Transformer架构的大语言模型,并结合创新的令牌压缩技术,在长文档与长视频场景下实现了更高的推理吞吐量。我们此次将发布BF16、FP8和FP4格式的模型检查点,并公开部分数据集、训练方案及训练代码。