التاريخ

منذ 3 أشهر

الحجم

761.8 MB

الوسوم

فهم الصور

الترخيص

MIT

GitHub

TIGER-AI-Lab/Pixel-Reasoner

رابط الورقة البحثية

2505.15966

1. مقدمة البرنامج التعليمي

يُعدّ PixelReasoner-RL-v1 نموذجًا رائدًا للغة المرئية، وقد أصدره مختبر TIGER AI في مايو 2025. وفيما يلي ورقة البحث ذات الصلة: مُفكِّر البكسل: تحفيز التفكير في مساحة البكسل باستخدام التعلم التعزيزي القائم على الفضول .

هذا المشروع، المبني على بنية Qwen2.5-VL، يتخطى قيود نماذج اللغة البصرية التقليدية التي تعتمد كليًا على التفكير النصي، من خلال أسلوب تدريب مبتكر قائم على التعلم التعزيزي قائم على الفضول. يستطيع PixelReasoner إجراء التفكير مباشرةً في مساحة البكسل، داعمًا العمليات البصرية مثل التدرج واختيار الإطارات، مما يُحسّن بشكل كبير قدرته على فهم تفاصيل الصورة والعلاقات المكانية ومحتوى الفيديو.

الميزات الأساسية:

الاستدلال على مستوى البكسل: يمكن تحليل النموذج ومعالجته مباشرة في مساحة بكسل الصورة.
الجمع بين الفهم العالمي والمحلي: تمكين فهم محتوى الصورة الإجمالي والقدرة على التكبير والتركيز على مناطق محددة.
التدريب القائم على الفضول: تقديم آلية مكافأة الفضول لتحفيز النموذج على استكشاف العمليات على مستوى البكسل بشكل نشط.
تحسين القدرة على التفكير: أداء ممتاز في المهام البصرية المعقدة، بما في ذلك التعرف على الأشياء الصغيرة وفهم العلاقات المكانية الدقيقة.

يستخدم هذا البرنامج التعليمي Grado لنشر PixelReasoner-RL-v1 كعرض توضيحي، باستخدام موارد قوة الحوسبة لبطاقة RTX 5090 واحدة.

2. عرض التأثير

يؤدي PixelReasoner-RL-v1 أداءً استثنائيًا في مهام التفكير البصري المتعددة:

فهم الصورة: التعرف بدقة على محتوى الصورة، والعلاقات بين الكائنات، وتفاصيل المشهد.
التقاط التفاصيل: القدرة على اكتشاف الأشياء الدقيقة والنصوص المضمنة وغيرها من المعلومات الدقيقة في الصور.
تحليلات الفيديو: فهم محتوى الفيديو وتسلسلات الحركة عن طريق تحديد الإطارات الرئيسية.
الاستدلال المكاني: فهم دقيق للموقع المكاني والعلاقات النسبية للأشياء.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

سيستغرق التشغيل الأولي دقيقتين إلى ثلاث دقائق تقريبًا؛ يُرجى التحلي بالصبر. بعد اكتمال النشر، انقر على "عنوان واجهة برمجة التطبيقات" للوصول مباشرةً إلى واجهة Grado.

2. البدء

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{pixelreasoner2025,
  title={Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning},
  author={Su, Alex and Wang, Haozhe and Ren, Weiming and Lin, Fangzhen and Chen, Wenhu},
  journal={arXiv preprint arXiv:2505.15966},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 3 أشهر

الحجم

761.8 MB

الوسوم

فهم الصور

الترخيص

MIT

GitHub

TIGER-AI-Lab/Pixel-Reasoner

رابط الورقة البحثية

2505.15966

1. مقدمة البرنامج التعليمي

الميزات الأساسية:

الاستدلال على مستوى البكسل: يمكن تحليل النموذج ومعالجته مباشرة في مساحة بكسل الصورة.
الجمع بين الفهم العالمي والمحلي: تمكين فهم محتوى الصورة الإجمالي والقدرة على التكبير والتركيز على مناطق محددة.
التدريب القائم على الفضول: تقديم آلية مكافأة الفضول لتحفيز النموذج على استكشاف العمليات على مستوى البكسل بشكل نشط.
تحسين القدرة على التفكير: أداء ممتاز في المهام البصرية المعقدة، بما في ذلك التعرف على الأشياء الصغيرة وفهم العلاقات المكانية الدقيقة.

يستخدم هذا البرنامج التعليمي Grado لنشر PixelReasoner-RL-v1 كعرض توضيحي، باستخدام موارد قوة الحوسبة لبطاقة RTX 5090 واحدة.

2. عرض التأثير

يؤدي PixelReasoner-RL-v1 أداءً استثنائيًا في مهام التفكير البصري المتعددة:

فهم الصورة: التعرف بدقة على محتوى الصورة، والعلاقات بين الكائنات، وتفاصيل المشهد.
التقاط التفاصيل: القدرة على اكتشاف الأشياء الدقيقة والنصوص المضمنة وغيرها من المعلومات الدقيقة في الصور.
تحليلات الفيديو: فهم محتوى الفيديو وتسلسلات الحركة عن طريق تحديد الإطارات الرئيسية.
الاستدلال المكاني: فهم دقيق للموقع المكاني والعلاقات النسبية للأشياء.

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

سيستغرق التشغيل الأولي دقيقتين إلى ثلاث دقائق تقريبًا؛ يُرجى التحلي بالصبر. بعد اكتمال النشر، انقر على "عنوان واجهة برمجة التطبيقات" للوصول مباشرةً إلى واجهة Grado.

2. البدء

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{pixelreasoner2025,
  title={Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning},
  author={Su, Alex and Wang, Haozhe and Ren, Weiming and Lin, Fangzhen and Chen, Wenhu},
  journal={arXiv preprint arXiv:2505.15966},
  year={2025}
}

نشر نموذج SmolLM3-3B بنقرة واحدة

منذ 3 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

نشر DeepSeek-R1-70B بنقرة واحدة

منذ 3 أشهر

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

منذ 3 أشهر

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

منذ 2 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

1. مقدمة البرنامج التعليمي

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. البدء

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

1. مقدمة البرنامج التعليمي

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. البدء

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

نشر DeepSeek-R1-70B بنقرة واحدة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

1. مقدمة البرنامج التعليمي

2. عرض التأثير

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. البدء

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

نشر DeepSeek-R1-70B بنقرة واحدة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

نشر DeepSeek-R1-70B بنقرة واحدة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

ذات صلة دفاتر تفاعلية

نشر نموذج SmolLM3-3B بنقرة واحدة

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

نشر DeepSeek-R1-70B بنقرة واحدة

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan