Phi-3.5-vision-instruct 是微软发布的 Phi-3.5 系列中的多模态模型,专为处理文本和视觉输入的应用而设计。该模型支持 128K 的上下文长度,并经过严格的微调和优化过程,适合在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。 Phi-3.5-vision-instruct 模型具备广泛的图像理解、光学字符识别 (OCR) 、图表和表格解析、多图像或视频剪辑摘要等功能,非常适合多种 AI 驱动的应用。在图像和视频处理相关的基准测试中表现出显著的性能提升。模型的架构包括一个 42 亿参数的系统,集成了图像编码器、连接器、投影器和 Phi-3 Mini 语言模型。训练使用了 256 个 NVIDIA A100-80G GPU,训练时间为 6 天,训练数据包括 5000 亿个 token(视觉和文本)。
Phi-3.5-vision-instruct 模型在多模态多图像理解 (MMMU) 中的得分为 43.0,显示了其在处理复杂图像理解任务时的增强能力。此外,模型使用高质量的教育数据、合成数据和经过严格筛选的公开文档进行训练,确保数据质量和隐私。
该教程使用单卡 4090 即可启动。
1. 克隆并成功启动容器后,等待约 10s,将鼠标悬浮在「API 地址」处,拷贝链接到新标签页打开
2. 可以看到如下界面
3. 点击上传图片,选择模型,并输入问题,点击 Submit
4. 生成结果
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓