vLLM + Open WebUI로 NVIDIA-Nemotron-Nano-9B-v2 배포

1. 튜토리얼 소개

NVIDIA-Nemotron-Nano-9B-v2는 NVIDIA 팀이 2025년 8월 19일에 출시한 경량 대규모 언어 모델입니다. Nemotron 시리즈의 하이브리드 아키텍처 최적화 버전인 이 모델은 Mamba의 효율적인 장문 시퀀스 처리 기능과 Transformer의 강력한 의미론적 모델링 기능을 혁신적으로 결합하여 단 90억(9B)개의 매개변수만으로 128K의 초장문 컨텍스트를 지원합니다. RTX 4090급 GPU와 같은 엣지 컴퓨팅 디바이스에서의 추론 효율성과 작업 성능은 동일한 매개변수 규모의 최첨단 모델과 유사하며, 경량 배포 및 대규모 언어 모델의 장문 텍스트 이해 분야에서 중요한 돌파구를 제시합니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델".

이 튜토리얼에서는 리소스로 단일 RTX A6000 카드를 사용합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

"모델"이 표시되지 않으면 모델이 초기화 중임을 의미합니다. 모델이 용량이 크므로 2~3분 정도 기다린 후 페이지를 새로고침해 주세요.

사용 방법

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{nvidia2025nvidianemotronnano2,
      title={NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model},
      author={NVIDIA},
      year={2025},
      eprint={2508.14444},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2508.14444},
}