HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델

NVIDIA

초록

우리는 Mixture-of-Experts 구조를 채택한 하이브리드 Mamba-Transformer 언어 모델인 Nemotron 3 Nano 30B-A3B를 소개한다. Nemotron 3 Nano는 이전 버전인 Nemotron 2보다 3조 개 이상의 새로운 고유 토큰을 포함한 총 25조 토큰의 텍스트 데이터를 기반으로 사전 학습되었으며, 이후 감독 학습 및 다양한 환경에서의 대규모 강화 학습을 통해 최적화되었다. Nemotron 3 Nano는 전작인 Nemotron 2 Nano보다 더 높은 정확도를 달성하면서도, 각 전방 계산 단계에서 활성화되는 파라미터 수가 절반 미만으로 유지된다. GPT-OSS 20B 및 Qwen3-30B-A3B-Thinking-2507과 크기가 유사한 오픈 소스 모델들과 비교했을 때, 추론 처리량은 최대 3.3배 높으며, 주요 벤치마크에서 더 뛰어난 정확도를 보인다. Nemotron 3 Nano는 에이전트 역량, 추론 능력, 채팅 성능이 향상되었으며, 최대 100만 토큰까지의 컨텍스트 길이를 지원한다. 우리는 Hugging Face에 사전 학습된 Nemotron 3 Nano 30B-A3B Base 및 후속 학습된 Nemotron 3 Nano 30B-A3B 체크포인트를 모두 공개한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델 | 문서 | HyperAI초신경