LLaVA-OneVision 多模态全能视觉模型 Demo
一键部署 LLaVA-OneVision

教程介绍
LLaVA-OneVision 是来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员于 2024 年共同开发的开放多模态大模型,能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这三个重要计算机视觉场景性能瓶颈的单模型。
它不仅在不同模态和场景之间实现了强大的迁移学习能力,还通过任务转移展示了其在视频理解和跨场景能力方面的显著优势。 LLaVA-OneVision 的特点在于其能够处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。此外,该模型在设计上注重了视觉标记的最大数量的一致性,确保了不同场景下的视觉表示能够平衡,从而支持跨场景的能力迁移
主要特点:
- 支持各种输入分辨率,最高可达 2304*2304 像素。
- anyres_max_9 模式下单张图像输入最多用 729*(9+1) 个 token 表示。
- 支持多图像和视频输入。多图像输入由每幅图像 729 个 token 表示,视频输入由每帧 196 个 token 表示。注意:该教程需要单卡 A6000 启动
运行方法
1. 克隆并启动容器,待容器状态为「运行中」。由于模型较大,加载模型需要等待约 1 分钟,拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频,并输入文本提示

4. 回车,生成回答

探讨交流
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
