一键部署 Llama 3.1 405B 模型 OpenAI 兼容 API 服务

教程及模型简介

该教程为使用 OpenAI 兼容 API 服务部署 Llama-3.1-405B-Instruct-AWQ-INT4 模型,含文字教程和视频教程。

* 视频教程:【OpenBayes 官方教程】快速部署 Mistral-Large & Llama-3.1-405B 超大模型

该模型是 Llama 3.1 系列大型语言模型中的 405B 参数大小指令调优版,并采用了 AWQ 量化技术,将模型的权重量化到 INT4 精度,这有助于在保持性能的同时减小模型大小,提高推理速度。它是当前最大的开源模型之一,支持多语言输入和输出,增强了模型的通用性和适用范围,同时引入了更长的上下文窗口,能够处理更复杂的任务和对话。

「OpenAI 兼容 API」(OpenAI-compatible API)指的是一个应用程序编程接口 (API),它遵循 OpenAI 公司所设定的接口标准和规范,使得开发者可以利用这些 API 与大型语言模型(如 OpenAI 的 GPT 系列模型)进行交互。这种兼容性意味着第三方开发者可以使用与 OpenAI 相同的请求和响应格式,将类似的功能集成到他们自己的应用程序中。例如,如果一个开发者在使用 OpenAI 的 API 构建了一个聊天机器人,他们可以轻松地切换到另一个也遵循 OpenAI 兼容 API 标准的服务,而无需对他们的代码进行大量修改。

OpenAI 兼容 API 的主要特点包括:

  • 标准化请求:API 请求遵循 OpenAI 的格式,包括必要的参数和结构。
  • 标准化响应:API 响应也遵循 OpenAI 的格式,使得处理和解析结果变得一致和可预测。
  • 功能一致性:提供与 OpenAI 相似的功能,如文本生成、翻译、摘要等。
  • 易于集成:开发者可以轻松地将这些 API 集成到现有系统中,利用熟悉的接口和模式。

文字教程

1. 在教程界面右上角克隆并启动容器

OpenAI 兼容 API 在部署成功后会自动将所有的服务启动起来,不需要额外的干预。

2. 复制 API 地址至新的页面打开

可以看到显示的是一个默认的 404 信息。

3. 在 API 地址后增加额外的参数’ /v1/models’

可以看到显示的是模型的部署信息。

4. 此时可以在任何 OpenAI 兼容的 SDK 都可以对该模型进行连接,此处以 OpenWebUI 为例——使用本地的 OpenWebUI 兼入这个 API

在本地起一个 OpenWebUI 的服务,在「外部连接」处起一个额外的连接,在「OpenAPI」处填写 API 并➕ ‘/v1’,这里没有设置任何「API 密钥」自定义输入即可。点击右下角保存。

5. 部署完成

可以看到此时的 OpenWebUI 界面已经有 Llama-3.1-405b 模型了,直接在下方输入消息即可与大模型对话。