Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是由 Meta 于 2024 年开发的一组经过预训练和指令调整的图像推理生成模型,大小分别为 11B 和 90B(文本 + 图像输入/文本输出)。 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见的行业基准上优于许多可用的开源和封闭多模态模型。 支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。 Llama 3.2 已针对比这 8 种支持的语言更广泛的语言进行过训练。
Llama 3.2-Vision 旨在用于商业和研究。指令调整模型用于视觉识别、图像推理、字幕和类似助手的图像聊天,而预训练模型可以适应各种图像推理任务。此外,由于 Llama 3.2-Vision 能够将图像和文本作为输入,因此其他用例可能包括:
1. 启动容器后点击 API 地址即可进入 Web 界面
2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”
3. 点击提交即可看到模型输出结果