Discord에서 논의하기

7달 전

감독된 미세조정

NVIDIA

초록

우리는 Mixture-of-Experts 구조를 채택한 하이브리드 Mamba-Transformer 언어 모델인 Nemotron 3 Nano 30B-A3B를 소개한다. Nemotron 3 Nano는 이전 버전인 Nemotron 2보다 3조 개 이상의 새로운 고유 토큰을 포함한 총 25조 토큰의 텍스트 데이터를 기반으로 사전 학습되었으며, 이후 감독 학습 및 다양한 환경에서의 대규모 강화 학습을 통해 최적화되었다. Nemotron 3 Nano는 전작인 Nemotron 2 Nano보다 더 높은 정확도를 달성하면서도, 각 전방 계산 단계에서 활성화되는 파라미터 수가 절반 미만으로 유지된다. GPT-OSS 20B 및 Qwen3-30B-A3B-Thinking-2507과 크기가 유사한 오픈 소스 모델들과 비교했을 때, 추론 처리량은 최대 3.3배 높으며, 주요 벤치마크에서 더 뛰어난 정확도를 보인다. Nemotron 3 Nano는 에이전트 역량, 추론 능력, 채팅 성능이 향상되었으며, 최대 100만 토큰까지의 컨텍스트 길이를 지원한다. 우리는 Hugging Face에 사전 학습된 Nemotron 3 Nano 30B-A3B Base 및 후속 학습된 Nemotron 3 Nano 30B-A3B 체크포인트를 모두 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

7달 전

감독된 미세조정

NVIDIA

초록

우리는 Mixture-of-Experts 구조를 채택한 하이브리드 Mamba-Transformer 언어 모델인 Nemotron 3 Nano 30B-A3B를 소개한다. Nemotron 3 Nano는 이전 버전인 Nemotron 2보다 3조 개 이상의 새로운 고유 토큰을 포함한 총 25조 토큰의 텍스트 데이터를 기반으로 사전 학습되었으며, 이후 감독 학습 및 다양한 환경에서의 대규모 강화 학습을 통해 최적화되었다. Nemotron 3 Nano는 전작인 Nemotron 2 Nano보다 더 높은 정확도를 달성하면서도, 각 전방 계산 단계에서 활성화되는 파라미터 수가 절반 미만으로 유지된다. GPT-OSS 20B 및 Qwen3-30B-A3B-Thinking-2507과 크기가 유사한 오픈 소스 모델들과 비교했을 때, 추론 처리량은 최대 3.3배 높으며, 주요 벤치마크에서 더 뛰어난 정확도를 보인다. Nemotron 3 Nano는 에이전트 역량, 추론 능력, 채팅 성능이 향상되었으며, 최대 100만 토큰까지의 컨텍스트 길이를 지원한다. 우리는 Hugging Face에 사전 학습된 Nemotron 3 Nano 30B-A3B Base 및 후속 학습된 Nemotron 3 Nano 30B-A3B 체크포인트를 모두 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델 | 문서 | HyperAI초신경