このチュートリアルでは、OpenWebUI を使用して、ワンクリックで Llama-3.1-405B-Instruct-AWQ-INT4 をデプロイします。推論エクスペリエンスのためにコンテナを複製して起動するだけで済みます。
このモデルは、Llama 3.1 シリーズの大規模言語モデルの 405B パラメーター サイズ命令の最適化されたバージョンであり、AWQ 量子化テクノロジを使用してモデルの重みを INT4 精度に量子化します。これにより、パフォーマンスを維持しながらモデル サイズを削減し、推論を向上させることができます。スピード。これは現在最大のオープンソース モデルの 1 つであり、多言語の入出力をサポートし、モデルの多用途性と適用性を強化すると同時に、より複雑なタスクや会話を処理できるより長いコンテキスト ウィンドウを導入しています。
Llama-3.1-405B-Instruct-AWQ-INT4 モデルは、128K トークンのコンテキスト長のサポートを特徴としており、より長く、より一貫性のあるテキストを理解して生成することができます。さらに、このモデルはコマンドが調整され、ユーザー コマンドに従うパフォーマンスが向上しました。このモデルでは、量子化テクノロジ、特にモデルの重みを INT4 精度に量子化する AWQ (Adaptive Weight Quantization) 量子化手法も使用されており、これにより、パフォーマンスを維持しながらモデル サイズを削減し、推論速度を向上させることができます。
モデルのパフォーマンスは、複数の言語をカバーする 150 以上のベンチマーク データセットで評価され、実際のシナリオで競合するモデルと比較する広範な人間による評価の対象となります。実験による評価では、Llama-3.1-405B は、さまざまなタスクにおいて、GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要な基本モデルと同等であることが示されています。さらに、このモデルは、データ サーバー、エッジ デバイス、PC などの NVIDIA の複数のプラットフォームに適合するように最適化されています。