HyperAI超神经

一键部署 R1-OneVision

一、 教程简介

R1-OneVision 是浙江大学团队于 2025 年 2 月发布的多模态推理大型模型。该模型基于 Qwen2.5-VL 在 R1-Onevision 数据集上微调而成,擅长处理复杂的视觉推理任务,无缝整合视觉和文本数据,在数学、科学、深度图像理解和逻辑推理等领域表现出色,可作为强大的 AI 助手解决各种问题。相关论文成果为「R1-Onevision: Advancing Generalized Multimodal Reasoning throughCross-Modal Formalization」。

本教程使用 R1-Onevision-7B 作为演示,算力资源采用 RTX 4090 。

二、 运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1-2 分钟后刷新页面。

2. 功能演示

引用信息

感谢 GitHub 用户 boyswu  对本教程的制作,本项目引用信息如下:

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓