HyperAI超神经

1. Introduction au tutoriel

R1-OneVision est un modèle de raisonnement multimodal à grande échelle publié par l'équipe de l'Université du Zhejiang en février 2025. Le modèle est affiné sur la base de Qwen2.5-VL sur l'ensemble de données R1-Onevision. Il est efficace pour gérer des tâches de raisonnement visuel complexes et intégrer de manière transparente des données visuelles et textuelles. Il fonctionne bien dans des domaines tels que les mathématiques, les sciences, la compréhension approfondie des images et le raisonnement logique, et peut servir d'assistant IA puissant pour résoudre divers problèmes. Les résultats pertinents de l'article sontR1-Onevision : Faire progresser le raisonnement multimodal généralisé grâce à la formalisation intermodale".

Ce tutoriel utilise R1-Onevision-7B comme démonstration et la ressource informatique utilise RTX 4090.

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration fonctionnelle

Informations sur la citation

Merci à l'utilisateur de GitHub garçonswu Pour la réalisation de ce tutoriel, les informations de référence du projet sont les suivantes :

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓