FastVLM:极速视觉语言模型
一、教程简介

FastVLM 是由 Apple 团队于 2025 年 9 月推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入 FastViTHD 新型混合视觉编码器,有效减少视觉 token 数量,显著降低编码时间。 FastVLM 在保持与现有 VLM 相似性能的同时,大幅提升处理速度,例如在 LLaVA-1.5 设置中,相比其他模型,将首次生成 token 的时间(TTFT)缩短 3.2 倍。 FastVLM 在多种 VLM 基准测试中表现出色,且模型尺寸更小,训练数据需求更少,展现在多模态理解任务中的高效性和实用性。相关论文成果为「FastVLM: Efficient Vision Encoding for Vision Language Models」,已被 CVPR 2025 收录。
该项目提供了两种型号的模型:
- FastVLM-0.5B
- FastVLM-7B
本教程采用资源为单卡 RTX 4090 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@InProceedings{fastvlm2025,
author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2025},
}