HyperAI초신경

NVIDIA는 엣지 기기용 고정확도 추론을 지원하는 새로운 AI 모델 ‘Nemotron Nano 2 9B’를 공개했다. 이 모델은 하이브리드 트랜스포머-Mamba 아키텍처를 기반으로 하며, 긴 추론 흐름에서도 높은 처리 속도와 낮은 메모리 사용을 가능하게 해 엣지 환경에서의 실시간 AI 응용에 최적화됐다. 특히 ‘사고 예산(Thinking Budget)’ 기능을 통해 개발자가 내부 추론 단계의 길이를 조절할 수 있어, 정확도를 유지하면서도 인퍼런스 비용을 최대 60% 절감할 수 있다. 모델은 수학, 프로그래밍, 과학 등 다양한 추론 과제에서 동급 모델 대비 뛰어난 정확도를 보이며, 지시어 이해와 도구 호출 능력도 우수하다. 12B 기반 모델을 압축·정제해 9B 크기로 구성했고, NVIDIA A10G GPU의 메모리 제약 내에서 128K 길이의 컨텍스트를 지원한다. 훈련 과정에서는 지도 미세조정, 강화학습 및 선호도 최적화를 거쳐 안정성과 타당성을 확보했다. 개발자는 vLLM 서버를 통해 모델을 실행하고, 클라이언트 코드에서 사고 예산을 설정해 추론 흐름을 제어할 수 있다. 예를 들어, 32개 토큰 이내의 사고만 허용하면 응답 지연을 줄이면서도 정확한 결과를 얻을 수 있다. NVIDIA는 모델 외에도 훈련 데이터, 가중치, 훈련 기법 등을 오픈소스로 공개하며 개발자 생태계를 지원한다. Nemotron Nano 2 9B는 곧 NVIDIA NIM을 통해 쉽게 배포될 예정이며, 엣지 기기에서의 자율 AI 에이전트 구현에 중요한 역할을 할 것으로 기대된다.

NVIDIA Nemotron Nano 2 9B 초고정확도 엣지 AI 추론 모델 출시, 6배 빠른 처리 속도와 토큰 비용 60% 절감 가능

Related Links