DeepSeek-V2-Lite-Chat のワンクリック導入
このチュートリアルは、DeepSeek-V2-Lite-Chat のワンクリック展開デモです。コンテナを複製して起動し、生成された API アドレスを直接コピーするだけで、モデルの推論を体験できます。
1. モデルの紹介
DeepSeek-V2 は、経済的なトレーニングと効率的な推論を特徴とする強力な専門家混合 (MoE) 言語モデルです。これには合計 236B のパラメータが含まれており、各トークンは 21B のパラメータをアクティブにします。 DeepSeek 67B と比較して、DeepSeek-V2 は、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に増やしながら、より強力なパフォーマンスを実現します。
2. 評価結果
ベンチマーク | ドメイン | QWen1.5 72B チャット | ミストラル 8x22B | LLaMA3 70B 指示する | DeepSeek-V1 チャット (SFT) | DeepSeek-V2 チャット (SFT) | DeepSeek-V2 チャット (RL) |
---|---|---|---|---|---|---|---|
MMLU | 英語 | 76.2 | 77.8 | 80.3 | 71.1 | 78.4 | 77.8 |
BBH | 英語 | 65.9 | 78.4 | 80.1 | 71.7 | 81.3 | 79.7 |
C-評価 | 中国語 | 82.2 | 60.0 | 67.9 | 65.2 | 80.9 | 78.0 |
CMMLU | 中国語 | 82.9 | 61.0 | 70.7 | 67.8 | 82.4 | 81.6 |
HumanEval | コード | 68.9 | 75.0 | 76.2 | 73.8 | 76.8 | 81.1 |
MBPP | コード | 52.2 | 64.4 | 69.8 | 61.4 | 70.4 | 72.0 |
LiveCodeBench (0901-0401) | コード | 18.8 | 25.0 | 30.5 | 18.3 | 28.7 | 32.5 |
GSM8K | 数学 | 81.9 | 87.9 | 93.2 | 84.1 | 90.8 | 92.2 |
数学 | 数学 | 40.6 | 49.8 | 48.5 | 32.6 | 52.7 | 53.9 |
3. 使用方法
このチュートリアルでは、モデルと環境をデプロイしました。チュートリアルのガイドラインに従って、推論ダイアログに大規模なモデルを直接使用できます。具体的なチュートリアルは次のとおりです。
ステップ 1: コンテナーのクローンを作成して起動する
コンテナーの複製と起動が成功すると、このインターフェイスが表示されます。モデルがロードされるまで 10 秒待ってから、右側の API アドレスをブラウザーにコピーします。
ステップ 2: Web ページにアクセスします
Web ページに入ると、大きなモデルと会話できます (関連するパラメーターはデバッグされているため、調整する必要はありません)。
話し合ってコミュニケーションする
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しましたので、お友達がコードをスキャンしてメモを作成し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加することを歓迎します↓。
