Command Palette
Search for a command to run...
PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل
Date
Size
761.8 MB
Tags
License
MIT
Paper URL
1. مقدمة البرنامج التعليمي

يُعدّ PixelReasoner-RL-v1 نموذجًا رائدًا للغة المرئية، وقد أصدره مختبر TIGER AI في مايو 2025. وفيما يلي ورقة البحث ذات الصلة: مُفكِّر البكسل: تحفيز التفكير في مساحة البكسل باستخدام التعلم التعزيزي القائم على الفضول .
هذا المشروع، المبني على بنية Qwen2.5-VL، يتخطى قيود نماذج اللغة البصرية التقليدية التي تعتمد كليًا على التفكير النصي، من خلال أسلوب تدريب مبتكر قائم على التعلم التعزيزي قائم على الفضول. يستطيع PixelReasoner إجراء التفكير مباشرةً في مساحة البكسل، داعمًا العمليات البصرية مثل التدرج واختيار الإطارات، مما يُحسّن بشكل كبير قدرته على فهم تفاصيل الصورة والعلاقات المكانية ومحتوى الفيديو.
الميزات الأساسية:
- الاستدلال على مستوى البكسل: يمكن تحليل النموذج ومعالجته مباشرة في مساحة بكسل الصورة.
- الجمع بين الفهم العالمي والمحلي: تمكين فهم محتوى الصورة الإجمالي والقدرة على التكبير والتركيز على مناطق محددة.
- التدريب القائم على الفضول: تقديم آلية مكافأة الفضول لتحفيز النموذج على استكشاف العمليات على مستوى البكسل بشكل نشط.
- تحسين القدرة على التفكير: أداء ممتاز في المهام البصرية المعقدة، بما في ذلك التعرف على الأشياء الصغيرة وفهم العلاقات المكانية الدقيقة.
يستخدم هذا البرنامج التعليمي Grado لنشر PixelReasoner-RL-v1 كعرض توضيحي، باستخدام موارد قوة الحوسبة لبطاقة RTX 5090 واحدة.
2. عرض التأثير


يؤدي PixelReasoner-RL-v1 أداءً استثنائيًا في مهام التفكير البصري المتعددة:
- فهم الصورة: التعرف بدقة على محتوى الصورة، والعلاقات بين الكائنات، وتفاصيل المشهد.
- التقاط التفاصيل: القدرة على اكتشاف الأشياء الدقيقة والنصوص المضمنة وغيرها من المعلومات الدقيقة في الصور.
- تحليلات الفيديو: فهم محتوى الفيديو وتسلسلات الحركة عن طريق تحديد الإطارات الرئيسية.
- الاستدلال المكاني: فهم دقيق للموقع المكاني والعلاقات النسبية للأشياء.
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
سيستغرق التشغيل الأولي دقيقتين إلى ثلاث دقائق تقريبًا؛ يُرجى التحلي بالصبر. بعد اكتمال النشر، انقر على "عنوان واجهة برمجة التطبيقات" للوصول مباشرةً إلى واجهة Grado.

2. البدء

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{pixelreasoner2025,
title={Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning},
author={Su, Alex and Wang, Haozhe and Ren, Weiming and Lin, Fangzhen and Chen, Wenhu},
journal={arXiv preprint arXiv:2505.15966},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.