HyperAI초신경

아리바바는 최근 중국에서 최초로 하이브리드 추론 대형 언어 모델(LLM)을 개발하여 오픈소스로 공개하는 Tongyi Qwen3를 출시했습니다. Tongyi Qwen3 모델 가족은 235B-A22B(총 235B 매개변수와 22B 활성 매개변수)와 30B-A3B 두 개의 MoE 모델과 0.6B, 1.7B, 4B, 8B, 14B, 32B 등 여섯 개의 밀도 모델로 구성됩니다. 이 모델들은 추론, 명령어 이해, 에이전트 기능, 다국어 지원 등의 기술 발전을 통해 구축되었습니다. 개발자들은 NVIDIA GPU 상에서 Tongyi Qwen3 모델들을 효과적으로 통합하고 배포할 수 있습니다. 이를 위해 NVIDIA TensorRT-LLM, Ollama, SGLang, vLLM 등 다양한 프레임워크를 사용할 수 있으며, 고속 처리, 저지연, GPU 메모리 사용량 등에 따라 가장 적합한 프레임워크를 선택할 수 있습니다. Tongyi Qwen3 모델 Tongyi Qwen3는 AIME, LiveCodeBench, ArenaHard, BFCL 등 인기 있는 벤치마크에서 세계적인 수준의 정확성을 제공하며, 중국에서 최초로 오픈소스로 공개된 하이브리드 추론 LLM입니다. 이 모델 가족은 다양한 크기의 밀도 모델과 전문가 혼합(MoE) 모델을 포함하여, 다양한 시나리오에 맞춰 사용할 수 있도록 설계되었습니다. LLM 추론 성능 LLM 생태계는 새로운 모델과 기술이 지속적으로 도입되면서 고성능 및 유연한 솔루션이 필요합니다. LLM 추론은 사전 채우기(prefill)와 디코딩(decoding) 단계에서 각각 다른 계산 및 메모리 요구 사항을 가지며, 초대형 모델에서는 병렬 분산 추론이 필요합니다. 또한 대규모 동시 요청과 동적 입력/출력 길이 요청을 처리해야 하는 어려움이 있습니다. 추론 엔진에서 사용할 수 있는 최적화 기법은 고성능 커널, 저정밀도 양자화, 배치 스케줄링, 샘플링 최적화, KV 캐시 최적화 등이 있습니다. 개발자들은 이러한 기법들의 조합 중 어떤 것이 자신의 시나리오에 가장 적합한지 실험해봐야 합니다. TensorRT-LLM을 활용한 Qwen3 추론 최적화 TensorRT-LLM은 NVIDIA GPU 상에서 효율적인 추론을 수행하기 위한 최신 최적화된 컴퓨팅 커널, 고성능 어텐션 구현, 다중 노드 및 다중 GPU 통신 분산 지원, 다양한 병렬화 및 양자화 전략을 제공합니다. 또한 PyTorch 기반으로 구축되어 성능 뿐만 아니라 개발자 친화적인 워크플로우를 제공합니다. Qwen3-4B 모델 설정 및 벤치마킹 TensorRT-LLM을 사용하여 Qwen3-4B 모델을 설정하고 벤치마킹하는 방법은 다음과 같습니다. 데이터셋 준비 및 설정 파일 작성 python python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \ --tokenizer=/path/to/Qwen3-4B \ --stdout token-norm-dist --num-requests=32768 \ --input-mean=1024 --output-mean=1024 \ --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt ```yaml cat >/path/to/extra-llm-api-config.yml <<EOF pytorch_backend_config: use_cuda_graph: true cuda_graph_padding_enabled: true cuda_graph_batch_sizes: 1 2 4 8 16 32 64 128 256 384 print_iter_log: true enable_overlap_scheduler: true EOF ``` 벤치마킹 실행 bash trtllm-bench \ --model Qwen/Qwen3-4B \ --model_path /path/to/Qwen3-4B \ throughput \ --backend pytorch \ --max_batch_size 128 \ --max_num_tokens 16384 \ --dataset /path/to/dataset.txt \ --kv_cache_free_gpu_mem_fraction 0.9 \ --extra_llm_api_options /path/to/extra-llm-api-config.yml \ --concurrency 128 \ --num_requests 32768 \ --streaming 동일한 GPU 설정에서, TensorRT-LLM과 BF16 정밀도를 사용하여 Qwen3-4B 밀도 모델의 추론 처리량은 BF16 기준 대비 최대 16.04배 향상되었습니다. 모델 호스팅 및 추론 호출 모델을 성공적으로 호스팅한 후에는 표준 OpenAI API를 사용하여 추론 호출을 수행할 수 있습니다. bash trtllm-serve \ /path/to/Qwen3-4B \ --host localhost \ --port 8000 \ --backend pytorch \ --max_batch_size 128 \ --max_num_tokens 16384 \ --kv_cache_free_gpu_memory_fraction 0.95 \ --extra_llm_api_options /path/to/extra-llm-api-config.yml 호스팅이 완료되면 다음과 같이 추론 호출을 수행할 수 있습니다. bash curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Qwen/Qwen3-4B", "max_tokens": 1024, "temperature": 0, "messages": [ { "role": "user", "content": "프랑스의 수도는 무엇인가요?" } ] }' 다른 프레임워크를 사용한 Qwen3-4B 실행 TensorRT-LLM 외에도 Ollama, SGLang, vLLM 등의 프레임워크를 사용하여 NVIDIA GPU 상에서 Qwen3 모델을 배포할 수 있습니다. 이 출시는 다양한 크기의 모델을 제공하여, Windows 개발자를 위한 NVIDIA RTX와 같은 기기에 사용할 수 있습니다. Ollama를 사용한 로컬 실행 bash ollama run qwen3:4b - "두 숫자를 더하는 파이썬 람다 함수를 작성해주세요" - 사고 모드 활성화 - "두 숫자를 더하는 파이썬 람다 함수를 작성해주세요 /no_think" - 비사고 모드 SGLang를 사용한 실행 SGLang 설치 bash pip install "sglang[all]" 데이터셋 다운로드 bash huggingface-cli download --resume-download Qwen/Qwen3-4B --local-dir ./ 서버 시작 bash python -m sglang.launch_server \ --model-path /ssd4TB/huggingface/hub/models/ \ --trust-remote-code \ --device "cuda:0" \ --port 30000 \ --host 0.0.0.0 추론 호출 bash curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Qwen/Qwen3-4B", "messages": [ { "role": "user", "content": "프랑스의 수도는 무엇인가요?" } ] }' vLLM을 사용한 실행 vLLM 설치 bash pip install vllm 서버 시작 bash vllm serve "Qwen/Qwen3-4B" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.85 \ --device "cuda:0" \ --max-num-batched-tokens 8192 \ --max-num-seqs 256 추론 호출 bash curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Qwen/Qwen3-4B", "messages": [ { "role": "user", "content": "프랑스의 수도는 무엇인가요?" } ] }' 요약 몇 가지 명령어만으로도 개발자들은 NVIDIA GPU 상에서 인기 있는 추론 프레임워크를 사용하여 새로운 Tongyi Qwen3 모델 가족을 테스트하고 배포할 수 있습니다. TensorRT-LLM, Ollama, SGLang, vLLM 등은 고속 처리, 저지연, GPU 메모리 사용량 등을 고려하여 AI 모델의 생산 배포에 가장 적합한 프레임워크를 선택할 수 있게 합니다. 업계 전문가들은 Tongyi Qwen3 모델들이 다양한 추론 프레임워크와 NVIDIA GPU의 결합을 통해 AI 추론 성능을 크게 향상시키는 데 중요한 역할을 하고 있다고 평가합니다. 아리바바는 이러한 모델들을 통해 AI 기술의 발전과 접근성을 더욱 강화하고 있습니다.

알리바바 Qwen3 모델, NVIDIA GPU로 빠른 배포 가능

Related Links