このノートブックを実行 Discordで議論

日付

2年前

タグ

チュートリアルとモデルの紹介

このチュートリアルでは、OpenWebUI を使用して、ワンクリックで Llama-3.1-405B-Instruct-AWQ-INT4 をデプロイします。推論エクスペリエンスのためにコンテナを複製して起動するだけで済みます。

このモデルは、Llama 3.1 シリーズの大規模言語モデルの 405B パラメーターサイズ命令の最適化されたバージョンであり、AWQ 量子化テクノロジを使用してモデルの重みを INT4 精度に量子化します。これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論を向上させることができます。スピード。これは現在最大のオープンソースモデルの 1 つであり、多言語の入出力をサポートし、モデルの多用途性と適用性を強化すると同時に、より複雑なタスクや会話を処理できるより長いコンテキストウィンドウを導入しています。

Llama-3.1-405B-Instruct-AWQ-INT4 モデルは、128K トークンのコンテキスト長のサポートを特徴としており、より長く、より一貫性のあるテキストを理解して生成することができます。さらに、このモデルはコマンドが調整され、ユーザーコマンドに従うパフォーマンスが向上しました。このモデルでは、量子化テクノロジ、特にモデルの重みを INT4 精度に量子化する AWQ (Adaptive Weight Quantization) 量子化手法も使用されており、これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論速度を向上させることができます。

モデルのパフォーマンスは、複数の言語をカバーする 150 以上のベンチマークデータセットで評価され、実際のシナリオで競合するモデルと比較する広範な人間による評価の対象となります。実験による評価では、Llama-3.1-405B は、さまざまなタスクにおいて、GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要な基本モデルと同等であることが示されています。さらに、このモデルは、データサーバー、エッジデバイス、PC などの NVIDIA の複数のプラットフォームに適合するように最適化されています。

ステップの実行

1. チュートリアルインターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。

2. API を開くと、次のインターフェイスが表示されます。ダイアログボックスにテキストを直接入力して、大きなモデルと通信します (モデルのサイズが大きいため、モデルがロードされるまでに約 30 秒待つ必要があります)。 OpenWebUI インターフェイスではモデルがデフォルトで選択されています。選択できない場合は、30 秒後に API アドレスページを更新してください。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

主要フレームワークガイド大規模言語モデル開発生成AI

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

このノートブックを実行 Discordで議論

日付

2年前

タグ

チュートリアルとモデルの紹介

このチュートリアルでは、OpenWebUI を使用して、ワンクリックで Llama-3.1-405B-Instruct-AWQ-INT4 をデプロイします。推論エクスペリエンスのためにコンテナを複製して起動するだけで済みます。

このモデルは、Llama 3.1 シリーズの大規模言語モデルの 405B パラメーターサイズ命令の最適化されたバージョンであり、AWQ 量子化テクノロジを使用してモデルの重みを INT4 精度に量子化します。これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論を向上させることができます。スピード。これは現在最大のオープンソースモデルの 1 つであり、多言語の入出力をサポートし、モデルの多用途性と適用性を強化すると同時に、より複雑なタスクや会話を処理できるより長いコンテキストウィンドウを導入しています。

Llama-3.1-405B-Instruct-AWQ-INT4 モデルは、128K トークンのコンテキスト長のサポートを特徴としており、より長く、より一貫性のあるテキストを理解して生成することができます。さらに、このモデルはコマンドが調整され、ユーザーコマンドに従うパフォーマンスが向上しました。このモデルでは、量子化テクノロジ、特にモデルの重みを INT4 精度に量子化する AWQ (Adaptive Weight Quantization) 量子化手法も使用されており、これにより、パフォーマンスを維持しながらモデルサイズを削減し、推論速度を向上させることができます。

モデルのパフォーマンスは、複数の言語をカバーする 150 以上のベンチマークデータセットで評価され、実際のシナリオで競合するモデルと比較する広範な人間による評価の対象となります。実験による評価では、Llama-3.1-405B は、さまざまなタスクにおいて、GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要な基本モデルと同等であることが示されています。さらに、このモデルは、データサーバー、エッジデバイス、PC などの NVIDIA の複数のプラットフォームに適合するように最適化されています。

ステップの実行

1. チュートリアルインターフェイスの右上隅でコンテナを複製して起動した後、API アドレスを新しいページにコピーして開きます。

2. API を開くと、次のインターフェイスが表示されます。ダイアログボックスにテキストを直接入力して、大きなモデルと通信します (モデルのサイズが大きいため、モデルがロードされるまでに約 30 秒待つ必要があります)。 OpenWebUI インターフェイスではモデルがデフォルトで選択されています。選択できない場合は、30 秒後に API アドレスページを更新してください。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

主要フレームワークガイド大規模言語モデル開発生成AI

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Open WebUI を使用してワンクリックで Llama 3.1 405B モデルを展開 | ノートブック | HyperAI超神経