一、教程简介

R1-OneVision 是浙江大学团队于 2025 年 2 月发布的多模态推理大型模型。该模型基于 Qwen2.5-VL 在 R1-Onevision 数据集上微调而成，擅长处理复杂的视觉推理任务，无缝整合视觉和文本数据，在数学、科学、深度图像理解和逻辑推理等领域表现出色，可作为强大的 AI 助手解决各种问题。相关论文成果为 R1-Onevision: Advancing Generalized Multimodal Reasoning throughCross-Modal Formalization 。

本教程使用 R1-Onevision-7B 作为演示，算力资源采用 RTX 4090 。

引用信息

感谢 GitHub 用户 boyswu 对本教程的制作，本项目引用信息如下：

@article{yang2025r1onevision, title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization}, author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen}, journal={arXiv preprint arXiv:2503.10615}, year={2025}, }

HyperAI

运行此教程在 Discord 上讨论

日期

10 个月前

大小

380.88 MB

许可证

Apache 2.0

GitHub

Fancy-MLLM/R1-Onevision

论文 URL

2503.10615

一、教程简介

本教程使用 R1-Onevision-7B 作为演示，算力资源采用 RTX 4090 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1-2 分钟后刷新页面。

2. 功能演示

引用信息

感谢 GitHub 用户 boyswu 对本教程的制作，本项目引用信息如下：

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

10 个月前

大小

380.88 MB

许可证

Apache 2.0

GitHub

Fancy-MLLM/R1-Onevision

论文 URL

2503.10615

一、教程简介

本教程使用 R1-Onevision-7B 作为演示，算力资源采用 RTX 4090 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1-2 分钟后刷新页面。

2. 功能演示

引用信息

感谢 GitHub 用户 boyswu 对本教程的制作，本项目引用信息如下：

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

交流探讨

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

一键部署 DeepSeek-R1-70B

3 个月前

腾讯混元 HunyuanVideo-Foley

1 个月前

一键部署 MedGemma-27b-text-it 医学推理大模型

3 个月前

一键部署 SmolLM3-3B-Model

2 个月前

一键部署 Qwen-Image-Lightning

2 个月前

一键部署 Ministral-3-14B-Instruct

2 个月前

PixelReasoner-RL：像素级视觉推理模型

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

一键部署 R1-OneVision

一、 教程简介

二、 运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 功能演示

引用信息

交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 R1-OneVision

一、 教程简介

二、 运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 功能演示

引用信息

交流探讨

相关教程

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

一键部署 DeepSeek-R1-70B

腾讯混元 HunyuanVideo-Foley

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 Qwen-Image-Lightning

一键部署 Ministral-3-14B-Instruct

PixelReasoner-RL：像素级视觉推理模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 R1-OneVision

一、 教程简介

二、 运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 功能演示

引用信息

交流探讨

相关教程

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

一键部署 DeepSeek-R1-70B

腾讯混元 HunyuanVideo-Foley

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 Qwen-Image-Lightning

一键部署 Ministral-3-14B-Instruct

PixelReasoner-RL：像素级视觉推理模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

一键部署 DeepSeek-R1-70B

腾讯混元 HunyuanVideo-Foley

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 Qwen-Image-Lightning

一键部署 Ministral-3-14B-Instruct

PixelReasoner-RL：像素级视觉推理模型

相关教程

HunyuanOCR：腾讯混元端到端 OCR

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

一键部署 DeepSeek-R1-70B

腾讯混元 HunyuanVideo-Foley

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 Qwen-Image-Lightning

一键部署 Ministral-3-14B-Instruct

PixelReasoner-RL：像素级视觉推理模型

一、教程简介

二、运行步骤

一、教程简介

二、运行步骤

一、教程简介

二、运行步骤