Command Palette
Search for a command to run...
Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델
Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델
NVIDIA
초록
우리는 Mixture-of-Experts 구조를 채택한 하이브리드 Mamba-Transformer 언어 모델인 Nemotron 3 Nano 30B-A3B를 소개한다. Nemotron 3 Nano는 이전 버전인 Nemotron 2보다 3조 개 이상의 새로운 고유 토큰을 포함한 총 25조 토큰의 텍스트 데이터를 기반으로 사전 학습되었으며, 이후 감독 학습 및 다양한 환경에서의 대규모 강화 학습을 통해 최적화되었다. Nemotron 3 Nano는 전작인 Nemotron 2 Nano보다 더 높은 정확도를 달성하면서도, 각 전방 계산 단계에서 활성화되는 파라미터 수가 절반 미만으로 유지된다. GPT-OSS 20B 및 Qwen3-30B-A3B-Thinking-2507과 크기가 유사한 오픈 소스 모델들과 비교했을 때, 추론 처리량은 최대 3.3배 높으며, 주요 벤치마크에서 더 뛰어난 정확도를 보인다. Nemotron 3 Nano는 에이전트 역량, 추론 능력, 채팅 성능이 향상되었으며, 최대 100만 토큰까지의 컨텍스트 길이를 지원한다. 우리는 Hugging Face에 사전 학습된 Nemotron 3 Nano 30B-A3B Base 및 후속 학습된 Nemotron 3 Nano 30B-A3B 체크포인트를 모두 공개한다.