HyperAI超神経

R1-OneVisionのワンクリック展開

1. チュートリアルの紹介

R1-OneVisionは、浙江大学のチームによって2025年2月にリリースされた大規模なマルチモーダル推論モデルです。このモデルは、R1-OnevisionデータセットのQwen2.5-VLに基づいて微調整されています。複雑な視覚的推論タスクを処理し、視覚データとテキストデータをシームレスに統合するのに優れています。数学、科学、深層画像理解、論理的推論などの分野で優れたパフォーマンスを発揮し、さまざまな問題を解決するための強力な AI アシスタントとして機能します。関連する論文の結果は以下の通りである。R1-Onevision: クロスモーダル形式化による一般化マルチモーダル推論の進歩”。

このチュートリアルでは、デモとして R1-Onevision-7B を使用し、コンピューティング リソースには RTX 4090 を使用します。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。 1~2分ほど待ってからページを更新してください。

2. 機能デモンストレーション

引用情報

GitHubユーザーに感謝 ボーイズウー  このチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。