HyperAI超神经

VITA-1.5:多模态交互大模型 Demo

一、教程简介

Build

VITA-1.5 是由南京大学和腾讯优图实验室联合团队于 2025 年 1 月 7 日发布了集成了视觉、语言和语音的多模态大型语言模型,旨在实现类似 GPT-4o 水平的实时视觉和语音交互。 VITA-1.5 大幅降低互动延迟,从 4 秒缩短至 1.5 秒,显著提升用户体验。相关论文成果为「VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction」。

本教程采用资源为单卡 A6000,目前 AI 互动仅支持中文和英语。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可与模型展开对话

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

使用步骤

本教材有多种 AI 互动方式:文本,音频,视频,图片。

文本互动

音频互动

图片/视频互动

视频互动

注意事项:

当使用摄像头录制视频在提问完成后需要及时删除视频

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下:

@article{fu2025vita,
  title={VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction},
  author={Fu, Chaoyou and Lin, Haojia and Wang, Xiong and Zhang, Yi-Fan and Shen, Yunhang and Liu, Xiaoyu and Li, Yangze and Long, Zuwei and Gao, Heting and Li, Ke and others},
  journal={arXiv preprint arXiv:2501.01957},
  year={2025}
}

@article{fu2024vita,
  title={Vita: Towards open-source interactive omni multimodal llm},
  author={Fu, Chaoyou and Lin, Haojia and Long, Zuwei and Shen, Yunhang and Zhao, Meng and Zhang, Yifan and Dong, Shaoqi and Wang, Xiong and Yin, Di and Ma, Long and others},
  journal={arXiv preprint arXiv:2408.05211},
  year={2024}
}