vLLMを使用してDeepSeek R1 7Bを展開する
🔥 DeepSeek-R1 7Bの超高速展開! vLLM + Open-WebUI を使用すると、ワンクリックで完了できます。🚀
1. チュートリアルの概要
DeepSeek-R1 は、DeepSeek が 2025 年にリリースした効率的で軽量な言語モデルであり、テキスト生成、対話、翻訳、要約などの複数のタスクをサポートします。高性能と低コンピューティング能力の両方の要件を考慮した知識蒸留技術を採用しており、迅速な展開と実用的なアプリケーションに適しています。
⚡ vLLM 導入を選択する理由は何ですか?
- 🚀 超高速推論: PagedAttention + FlashInfer、LLM を飛ばしましょう!
- 💾 スマートなメモリ管理: 長いテキストを効率的に処理し、ビデオメモリの使用量を削減します。
- 🎯 カーネルの最適化: GPTQ、AWQ、INT4/8などの量子化をサポートし、パフォーマンスを最大化します!
- 🌍 OpenAI APIと互換性あり: シームレスな移行、すぐに始めましょう!
- 🔥 複数のハードウェアのサポート: NVIDIA、AMD、Intel、TPU…どこでも実行できます!
💡 Open-WebUI により操作が簡単になります。
- 🌟 Web ベースの管理、すぐに使用可能!
- 🎨 直感的なインターフェース、導入の敷居が低い!
- 🔗複数のモデルをサポートし、ワンストップで体験できます!
このチュートリアルでは、DeepSeek-R1-Distill-Qwen-7B モデルをデモンストレーションとして使用し、使用されるコンピューティング リソースは「単一の RTX4090 カード」です。
2. 操作手順
1. コンテナを起動後、API アドレスをクリックして Web インターフェイスに入ります (「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。モデルが大きいため、約 2 分待ってから再試行してください)。

2. Web ページに入ると、モデルと会話を開始できます。
アカウント番号を入力してください:admin@123.com
パスワード: 123456
知らせ:
1. このチュートリアルは「オンライン検索」をサポートしています。この機能をオンにすると、推論速度が低下しますが、これは正常です。
2. バックエンドのvLLM推論は/home/vllm.logで確認できます。

一般的な会話設定
1. 温度
- 出力のランダム性を、通常は 0.0 ~ 2.0 の範囲で制御します。
- 低い値(0.1など): より確実で、一般的な単語に偏っています。
- 高い値(1.5など): よりランダムで、潜在的にもっとクリエイティブだが不安定なコンテンツ。
2. トップkサンプリング
- 最も確率の高い k 個の単語のみをサンプリングし、確率の低い単語は除外します。
- k は小さい (例: 10): 確実性は高まり、ランダム性は減少します。
- k は大きい(例:50): 多様性が増すと、革新性も高まります。
3. Top-pサンプリング(核サンプリング、Top-pサンプリング)
- 累積確率が p に達する単語セットを選択し、k の値は固定しません。
- 低い値(0.3など): 確実性は高まり、ランダム性は減少します。
- 高い値(0.9など): 多様性が増し、流暢性が向上しました。
4. 繰り返しペナルティ
- テキストの繰り返し率を制御します。通常は 1.0 ~ 2.0 の範囲です。
- 高い値(1.5など): 繰り返しを減らして読みやすさを向上します。
- 低い値(1.0など): ペナルティはありませんが、モデルが単語や文を繰り返す可能性があります。
5. 最大トークン数(最大生成長)
- 出力が長くなりすぎないように、モデルによって生成されるトークンの最大数を制限します。
- 通常の範囲:50-4096(モデルによって異なります)。
交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。