HyperAI초신경

오픈AI와 네이버의 협력으로 새로운 오픈소스 AI 모델 gpt-oss-20b와 gpt-oss-120b가 공개됐다. 이 모델들은 NVIDIA GPU 최적화를 통해 클라우드부터 PC까지 빠르고 스마트한 추론 성능을 제공하며, 웹 검색, 심층 연구, 코딩 보조 등 지능형 AI 애플리케이션 구현에 적합하다. 특히 NVIDIA GeForce RTX 5090에서는 초당 최대 256토큰의 속도로 동작하며, 13만1072자까지 긴 컨텍스트를 처리해 복잡한 문제 해결이 가능하다. 모델은 MXFP4 4비트 정밀도를 지원해 높은 품질과 효율성으로 자원 소모를 줄였다. 이 모델들은 Ollama, llama.cpp, Microsoft AI Foundry Local 등 다양한 프레임워크를 통해 RTX AI PC와 워크스테이션에서 손쉽게 사용할 수 있다. Ollama는 사용자 인터페이스를 통해 모델 선택과 대화가 즉시 가능하며, PDF 파일 처리, 이미지 포함 프롬프트, 컨텍스트 길이 조정 등 기능도 지원한다. 개발자는 CLI나 SDK를 활용해 애플리케이션에 통합할 수 있다. NVIDIA는 H100 GPU에서 훈련된 모델을 Blackwell 아키텍처 기반 시스템에서 최적화해 초당 150만 토큰의 추론 속도를 달성했으며, NVFP4 기술로 전력과 메모리 효율성을 극대화했다. 이는 트리리언 파라미터 모델을 실시간으로 실행할 수 있는 기반을 마련한다. 오픈소스 생태계와의 협력을 통해 FlashInfer, Hugging Face, vLLM 등 주요 프레임워크와도 호환되며, 전 세계 4.5억 건 이상의 CUDA 다운로드 기반 사용자들이 즉시 활용할 수 있다. NVIDIA는 오픈AI와의 오랜 협력 관계를 바탕으로 AI 기술의 접근성을 높이고, 글로벌 개발자 생태계를 강화하고 있다. 이는 생성형 AI, 의료, 제조 등 다양한 산업에서 혁신을 가속화하는 계기가 될 전망이다.

오픈AI 신규 오픈 모델, NVIDIA RTX GPU에서 로컬 가속

Related Links