R1-OneVisionは、浙江大学のチームによって2025年2月にリリースされた大規模なマルチモーダル推論モデルです。このモデルは、R1-OnevisionデータセットのQwen2.5-VLに基づいて微調整されています。複雑な視覚的推論タスクを処理し、視覚データとテキストデータをシームレスに統合するのに優れています。数学、科学、深層画像理解、論理的推論などの分野で優れたパフォーマンスを発揮し、さまざまな問題を解決するための強力な AI アシスタントとして機能します。関連する論文の結果は以下の通りである。R1-Onevision: クロスモーダル形式化による一般化マルチモーダル推論の進歩”。
@article{yang2025r1onevision,
title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
journal={arXiv preprint arXiv:2503.10615},
year={2025},
}