HyperAI超神経

vLLM+Open-webUIを使用してQwen3-30B-A3Bをデプロイする

GitHub
星
ライセンス

1. チュートリアルの概要

Qwen3プロジェクトは、Ali Qwenチームによって2025年にリリースされました。関連する技術レポートは 「Qwen3: より深く考え、より速く行動する」

Qwen3 は、Qwen シリーズの最新世代の大規模言語モデルであり、包括的な高密度モデルと専門家の混合 (MoE) モデルを提供します。豊富なトレーニング経験に基づき、Qwen3 は推論、コマンドコンプライアンス、エージェント機能、多言語サポートにおいて画期的な進歩を遂げました。 Qwen3 の最新バージョンには次の機能があります。

  • フルサイズの高密度および混合エキスパートモデル: 0.6B、1.7B、4B、8B、14B、32B、30B-A3B、235B-A22B
  • 支援思考パターン(複雑な論理的推論、数学、コーディング用)と非思考モード(効率的な一般的な会話用)シームレスな切り替えさまざまなシナリオで最適なパフォーマンスを保証します。
  • 推論機能が大幅に強化され、数学、コード生成、常識的な論理推論において、以前の QwQ (思考モード) および Qwen2.5 命令モデル (非思考モード) を上回ります。
  • 人間の好みとの優れた整合性、創造的な文章作成、ロールプレイング、マルチターンの会話、コマンドのフォローに優れており、より自然で魅力的、かつ没入感のある会話体験を提供します。
  • インテリジェント エージェント機能に優れ、思考モードと非思考モードの両方で外部ツールを正確に統合でき、複雑なエージェントベースのタスクにおけるオープン ソース モデルをリードします。
  • 100 を超える言語と方言をサポートし、強力な多言語理解、推論、コマンド追従、生成機能を備えています。

このチュートリアルでは、デュアル SIM A6000 のリソースを使用します。

👉 このプロジェクトでは以下のモデルを提供します:

  • Qwen3-30B-A3B モデル

2. 操作手順

  1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「モデル」が表示されない場合は、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってからページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

利用手順

3. OpenAI API呼び出しガイド

以下は、API 呼び出しメソッドの最適化された説明であり、より明確な構造と実用的な詳細が追加されています。

1. 基本設定を取得する

# 必要参数配置
BASE_URL = "<API 地址>/v1"  # 生产环境
MODEL_NAME = "Qwen3-30B-A3B"  # 默认模型名称
API_KEY = "Empty"  # 未设置 API_KEY

APIアドレスを取得する

2. さまざまな呼び出し方法

2.1 ネイティブPython呼び出し

import openai
# 创建 OpenAI 客户端实例
client = openai.OpenAI(
    api_key=API_KEY,  # 请替换为你的实际 API Key
    base_url=BASE_URL  # 替换为你的实际 base_url
)
# 发送聊天消息
response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "user", "content": "你好!"}
    ],
    temperature=0.7, 
)
# 输出回复内容
print(response.choices[0].message.content)
# 方法 2:requests 库(更灵活)
import requests
headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}
data = {
    "model": MODEL_NAME,
    "messages": [{"role": "user", "content": "你好!"}]
}
response = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=data)

2.2 開発ツールの統合

VScodeが正式にインストールされている場合 CLINE プラグイン

2.3 cURL呼び出し

curl <BASE_URL>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": <MODEL_NAME>,
    "messages": [{"role": "user", "content": "你好!"}]
  }'

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

ありがたい ZV-Liu  このチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@misc{glm2024chatglm,
      title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools},
      author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
      year={2024},
      eprint={2406.12793},
      archivePrefix={arXiv},
      primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}