PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل
1. مقدمة البرنامج التعليمي

PixelReasoner-RL-v1 هو نموذج لغة بصرية رائد أصدره مختبر TIGER AI في مايو 2025. عنوان الورقة البحثية ذات الصلة هو "مُفكِّر البكسل: تحفيز التفكير في مساحة البكسل باستخدام التعلم التعزيزي القائم على الفضول".
هذا المشروع، المبني على بنية Qwen2.5-VL، يتخطى قيود نماذج اللغة البصرية التقليدية التي تعتمد كليًا على التفكير النصي، من خلال أسلوب تدريب مبتكر قائم على التعلم التعزيزي قائم على الفضول. يستطيع PixelReasoner إجراء التفكير مباشرةً في مساحة البكسل، داعمًا العمليات البصرية مثل التدرج واختيار الإطارات، مما يُحسّن بشكل كبير قدرته على فهم تفاصيل الصورة والعلاقات المكانية ومحتوى الفيديو.
الميزات الأساسية:
- الاستدلال على مستوى البكسل: يمكن تحليل النموذج ومعالجته مباشرة في مساحة بكسل الصورة.
- الجمع بين الفهم العالمي والمحلي: تمكين فهم محتوى الصورة الإجمالي والقدرة على التكبير والتركيز على مناطق محددة.
- التدريب القائم على الفضول: تقديم آلية مكافأة الفضول لتحفيز النموذج على استكشاف العمليات على مستوى البكسل بشكل نشط.
- تحسين القدرة على التفكير: أداء ممتاز في المهام البصرية المعقدة، بما في ذلك التعرف على الأشياء الصغيرة وفهم العلاقات المكانية الدقيقة.
يستخدم هذا البرنامج التعليمي Grado لنشر PixelReasoner-RL-v1 كعرض توضيحي، باستخدام موارد قوة الحوسبة لبطاقة RTX 5090 واحدة.
2. عرض التأثير


يؤدي PixelReasoner-RL-v1 أداءً استثنائيًا في مهام التفكير البصري المتعددة:
- فهم الصورة: التعرف بدقة على محتوى الصورة، والعلاقات بين الكائنات، وتفاصيل المشهد.
- التقاط التفاصيل: القدرة على اكتشاف الأشياء الدقيقة والنصوص المضمنة وغيرها من المعلومات الدقيقة في الصور.
- تحليلات الفيديو: فهم محتوى الفيديو وتسلسلات الحركة عن طريق تحديد الإطارات الرئيسية.
- الاستدلال المكاني: فهم دقيق للموقع المكاني والعلاقات النسبية للأشياء.
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
سيستغرق التشغيل الأولي دقيقتين إلى ثلاث دقائق تقريبًا؛ يُرجى التحلي بالصبر. بعد اكتمال النشر، انقر على "عنوان واجهة برمجة التطبيقات" للوصول مباشرةً إلى واجهة Grado.

2. البدء

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{pixelreasoner2025,
title={Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning},
author={Su, Alex and Wang, Haozhe and Ren, Weiming and Lin, Fangzhen and Chen, Wenhu},
journal={arXiv preprint arXiv:2505.15966},
year={2025}
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.