HyperAI

1. مقدمة البرنامج التعليمي

R1-OneVision هو نموذج استدلال متعدد الوسائط واسع النطاق أصدره فريق جامعة تشجيانغ في فبراير 2025. تم ضبط النموذج بناءً على Qwen2.5-VL على مجموعة بيانات R1-Onevision. فهو جيد في التعامل مع مهام التفكير البصري المعقدة ودمج البيانات البصرية والنصية بسلاسة. ويؤدي أداءه بشكل جيد في مجالات مثل الرياضيات والعلوم وفهم الصور العميقة والتفكير المنطقي، ويمكن أن يعمل كمساعد ذكاء اصطناعي قوي لحل العديد من المشكلات. نتائج الورقة ذات الصلة هيR1-Onevision: تطوير التفكير المتعدد الوسائط المعمم من خلال الصياغة الرسمية متعددة الوسائط".

يستخدم هذا البرنامج التعليمي R1-Onevision-7B كعرض توضيحي، ويستخدم مورد الحوسبة RTX 4090.

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. العرض التوضيحي الوظيفي

معلومات الاستشهاد

شكرًا لمستخدم GitHub بويسوو لإنتاج هذا البرنامج التعليمي، معلومات مرجعية للمشروع هي كما يلي:

@article{yang2025r1onevision,
  title={R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization},
  author={Yi Yang and Xiaoxuan He and Hongkun Pan and Xiyan Jiang and Yan Deng and Xingtao Yang and Haoyu Lu and Dacheng Yin and Fengyun Rao and Minfeng Zhu and Bo Zhang and Wei Chen},
  journal={arXiv preprint arXiv:2503.10615},
  year={2025},
}

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓