NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델

Nemotron-Nano-9B-v2를 소개합니다. 이 모델은 유사한 규모의 기존 모델과 비교해 최신 수준의 정확도를 달성하면서도 추론 작업 부하에 대한 처리량(throughput)을 높이기 위해 설계된 하이브리드 Mamba-Transformer 언어 모델입니다. Nemotron-Nano-9B-v2는 일반적인 Transformer 아키텍처의 대부분의 자기주의(self-attention) 레이어를 Mamba-2 레이어로 대체한 Nemotron-H 아키텍처를 기반으로 하며, 추론을 위한 긴 사고 흐름(thinking traces)을 생성할 때 더 빠른 추론 속도를 달성할 수 있도록 설계되었습니다. 본 모델은 먼저 20조 토큰에 걸쳐 FP8 학습 레시피를 사용해 120억 파라미터 모델(Nemotron-Nano-12B-v2-Base)을 사전 학습한 후, 해당 모델을 정렬(align)한 뒤 Minitron 전략을 활용해 모델을 압축하고 정제합니다. 그 목표는 단일 NVIDIA A10G GPU(메모리 22GiB, bfloat16 정밀도)에서 최대 128k 토큰까지의 추론을 가능하게 하는 것입니다. 기존 유사 규모의 모델(예: Qwen3-8B)과 비교해 Nemotron-Nano-9B-v2는 추론 벤치마크에서 동등하거나 더 높은 정확도를 보이며, 8k 입력 및 16k 출력 토큰과 같은 추론 환경에서 최대 6배 높은 추론 처리량을 달성함을 입증했습니다. 저희는 Nemotron-Nano-9B-v2, Nemotron-Nano-12B-v2-Base, Nemotron-Nano-9B-v2-Base 체크포인트를 포함해 대부분의 사전 및 사후 학습 데이터셋을 Hugging Face에 공개합니다.