该教程为使用 OpenAI 兼容 API 服务部署 Llama-3.1-405B-Instruct-AWQ-INT4 模型,含文字教程和视频教程。
该模型是 Llama 3.1 系列大型语言模型中的 405B 参数大小指令调优版,并采用了 AWQ 量化技术,将模型的权重量化到 INT4 精度,这有助于在保持性能的同时减小模型大小,提高推理速度。它是当前最大的开源模型之一,支持多语言输入和输出,增强了模型的通用性和适用范围,同时引入了更长的上下文窗口,能够处理更复杂的任务和对话。
「OpenAI 兼容 API」(OpenAI-compatible API)指的是一个应用程序编程接口 (API),它遵循 OpenAI 公司所设定的接口标准和规范,使得开发者可以利用这些 API 与大型语言模型(如 OpenAI 的 GPT 系列模型)进行交互。这种兼容性意味着第三方开发者可以使用与 OpenAI 相同的请求和响应格式,将类似的功能集成到他们自己的应用程序中。例如,如果一个开发者在使用 OpenAI 的 API 构建了一个聊天机器人,他们可以轻松地切换到另一个也遵循 OpenAI 兼容 API 标准的服务,而无需对他们的代码进行大量修改。
OpenAI 兼容 API 的主要特点包括:
OpenAI 兼容 API 在部署成功后会自动将所有的服务启动起来,不需要额外的干预。
可以看到显示的是一个默认的 404 信息。
可以看到显示的是模型的部署信息。
在本地起一个 OpenWebUI 的服务,在「外部连接」处起一个额外的连接,在「OpenAPI」处填写 API 并➕ ‘/v1’,这里没有设置任何「API 密钥」自定义输入即可。点击右下角保存。
可以看到此时的 OpenWebUI 界面已经有 Llama-3.1-405b 模型了,直接在下方输入消息即可与大模型对话。