HyperAI超神経

DeepSeek-V2-Lite-Chat のワンクリック導入

このチュートリアルは、DeepSeek-V2-Lite-Chat のワンクリック展開デモです。コンテナを複製して起動し、生成された API アドレスを直接コピーするだけで、モデルの推論を体験できます。

1. モデルの紹介

DeepSeek-V2 は、経済的なトレーニングと効率的な推論を特徴とする強力な専門家混合 (MoE) 言語モデルです。これには合計 236B のパラメータが含まれており、各トークンは 21B のパラメータをアクティブにします。 DeepSeek 67B と比較して、DeepSeek-V2 は、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に増やしながら、より強力なパフォーマンスを実現します。

2. 評価結果

ベンチマークドメインQWen1.5 72B チャットミストラル 8x22BLLaMA3 70B 指示するDeepSeek-V1 チャット (SFT)DeepSeek-V2 チャット (SFT)DeepSeek-V2 チャット (RL)
MMLU英語76.277.880.371.178.477.8
BBH英語65.978.480.171.781.379.7
C-評価中国語82.260.067.965.280.978.0
CMMLU中国語82.961.070.767.882.481.6
HumanEvalコード68.975.076.273.876.881.1
MBPPコード52.264.469.861.470.472.0
LiveCodeBench (0901-0401)コード18.825.030.518.328.732.5
GSM8K数学81.987.993.284.190.892.2
数学数学40.649.848.532.652.753.9

3. 使用方法

このチュートリアルでは、モデルと環境をデプロイしました。チュートリアルのガイドラインに従って、推論ダイアログに大規模なモデルを直接使用できます。具体的なチュートリアルは次のとおりです。

ステップ 1: コンテナーのクローンを作成して起動する

コンテナーの複製と起動が成功すると、このインターフェイスが表示されます。モデルがロードされるまで 10 秒待ってから、右側の API アドレスをブラウザーにコピーします。 

ステップ 2: Web ページにアクセスします

Web ページに入ると、大きなモデルと会話できます (関連するパラメーターはデバッグされているため、調整する必要はありません)。 

話し合ってコミュニケーションする

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しましたので、お友達がコードをスキャンしてメモを作成し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加することを歓迎します↓。