HyperAI

チュートリアルとモデルの紹介

このチュートリアルでは、OpenWebUI を使用して、ワンクリックで Llama-3.1-405B-Instruct-AWQ-INT4 をデプロイします。推論エクスペリエンスのためにコンテナを複製して起動するだけで済みます。

このモデルは、Llama 3.1 シリーズの大規模言語モデルの 405B パラメーターサイズ命令の最適化されたバージョンであり、AWQ 量子化テクノロジを使用してモデルの重みを INT4 精度に量子化します。これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論を向上させることができます。スピード。これは現在最大のオープンソースモデルの 1 つであり、多言語の入出力をサポートし、モデルの多用途性と適用性を強化すると同時に、より複雑なタスクや会話を処理できるより長いコンテキストウィンドウを導入しています。

Llama-3.1-405B-Instruct-AWQ-INT4 モデルは、128K トークンのコンテキスト長のサポートを特徴としており、より長く、より一貫性のあるテキストを理解して生成することができます。さらに、このモデルはコマンドが調整され、ユーザーコマンドに従うパフォーマンスが向上しました。このモデルでは、量子化テクノロジ、特にモデルの重みを INT4 精度に量子化する AWQ (Adaptive Weight Quantization) 量子化手法も使用されており、これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論速度を向上させることができます。

モデルのパフォーマンスは、複数の言語をカバーする 150 以上のベンチマークデータセットで評価され、実際のシナリオで競合するモデルと比較する広範な人間による評価の対象となります。実験による評価では、Llama-3.1-405B は、さまざまなタスクにおいて、GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要な基本モデルと同等であることが示されています。さらに、このモデルは、データサーバー、エッジデバイス、PC などの NVIDIA の複数のプラットフォームに適合するように最適化されています。

ステップの実行

1. チュートリアルインターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。

2. API を開くと、次のインターフェイスが表示されます。ダイアログボックスにテキストを直接入力して、大きなモデルと通信します (モデルのサイズが大きいため、モデルがロードされるまでに約 30 秒待つ必要があります)。 OpenWebUI インターフェイスではモデルがデフォルトで選択されています。選択できない場合は、30 秒後に API アドレスページを更新してください。

Open WebUI を使用してワンクリックで Llama 3.1 405B モデルを展開

チュートリアルとモデルの紹介

ステップの実行

1. チュートリアル インターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。

1. チュートリアルインターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。