HyperAIHyperAI

Command Palette

Search for a command to run...

Open WebUI を使用してワンクリックで Llama 3.1 405B モデルを展開

日付

2年前

チュートリアルとモデルの紹介

このチュートリアルでは、OpenWebUI を使用して、ワンクリックで Llama-3.1-405B-Instruct-AWQ-INT4 をデプロイします。推論エクスペリエンスのためにコンテナを複製して起動するだけで済みます。

このモデルは、Llama 3.1 シリーズの大規模言語モデルの 405B パラメーター サイズ命令の最適化されたバージョンであり、AWQ 量子化テクノロジを使用してモデルの重みを INT4 精度に量子化します。これにより、パフォーマンスを維持しながらモデル サイズを削減し、推論を向上させることができます。スピード。これは現在最大のオープンソース モデルの 1 つであり、多言語の入出力をサポートし、モデルの多用途性と適用性を強化すると同時に、より複雑なタスクや会話を処理できるより長いコンテキスト ウィンドウを導入しています。

Llama-3.1-405B-Instruct-AWQ-INT4 モデルは、128K トークンのコンテキスト長のサポートを特徴としており、より長く、より一貫性のあるテキストを理解して生成することができます。さらに、このモデルはコマンドが調整され、ユーザー コマンドに従うパフォーマンスが向上しました。このモデルでは、量子化テクノロジ、特にモデルの重みを INT4 精度に量子化する AWQ (Adaptive Weight Quantization) 量子化手法も使用されており、これにより、パフォーマンスを維持しながらモデル サイズを削減し、推論速度を向上させることができます。

モデルのパフォーマンスは、複数の言語をカバーする 150 以上のベンチマーク データセットで評価され、実際のシナリオで競合するモデルと比較する広範な人間による評価の対象となります。実験による評価では、Llama-3.1-405B は、さまざまなタスクにおいて、GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要な基本モデルと同等であることが示されています。さらに、このモデルは、データ サーバー、エッジ デバイス、PC などの NVIDIA の複数のプラットフォームに適合するように最適化されています。

ステップの実行

1. チュートリアル インターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。

2. API を開くと、次のインターフェイスが表示されます。ダイアログ ボックスにテキストを直接入力して、大きなモデルと通信します (モデルのサイズが大きいため、モデルがロードされるまでに約 30 秒待つ必要があります)。 OpenWebUI インターフェイスではモデルがデフォルトで選択されています。選択できない場合は、30 秒後に API アドレス ページを更新してください。

Notebook の概要

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Open WebUI を使用してワンクリックで Llama 3.1 405B モデルを展開 | ノートブック | HyperAI超神経