HyperAI

تتحدى هذه الورقة الرأي السائد المتمثل في أن النماذج الصغيرة تفتقر بالضرورة إلى القدرة على التفكير التحليلي القوي، من خلال تقديم نموذج VibeThinker-1.5B، وهو نموذج كثيف بـ 1.5 مليار معلمة، تم تطويره وفقًا لمبدأ الطيف إلى الإشارة (Spectrum-to-Signal Principle - SSP). يُعد هذا النموذج تحدّيًا للاستراتيجية السائدة المتمثلة في تكبير عدد المعلمات لتعزيز القدرات، كما هو الحال في نماذج مثل DeepSeek R1 (671 مليار معلمة) وKimi k2 (أكبر من تريليون معلمة). يعتمد إطار SSP أولاً على عملية تدريب مُتعدّدة المراحل تُعرف بـ "الاستخلاص المُتعدد التمايز (SFT)" لاستكشاف طيف واسع من الحلول، تليها عملية تحسين سياسة مُوجهة بـ MaxEnt (RL) لتعزيز الإشارة الصحيحة. وبتكلفة تدريب إجمالية بلغت 7800 دولار فقط، يُظهر VibeThinker-1.5B قدرات تفكير تحليلي متفوّقة مقارنة بنماذج مغلقة المصدر مثل Magistral Medium وClaude Opus 4، وينافس نماذج مفتوحة المصدر مثل GPT OSS-20B Medium من حيث الأداء. وبشكل ملحوظ، تفوق النموذج الأكبر بـ 400 مرة (DeepSeek R1) في ثلاث معايير رياضية: AIME24 (80.3 مقابل 79.8)، AIME25 (74.4 مقابل 70.0)، وHMMT25 (50.4 مقابل 41.7). ويشكّل هذا تحسّنًا كبيرًا مقارنة بالنموذج الأساسي (6.7، 4.3، و0.6 على التوالي). كما حقق VibeThinker-1.5B درجة 51.1 في اختبار LiveCodeBench V6، متفوّقًا على Magistral Medium (50.3) ونموذج الأساس (0.0). تُظهر هذه النتائج أن النماذج الصغيرة قادرة على تحقيق قدرات تفكير تحليلي مماثلة للنماذج الكبيرة، مع تقليل كبير في تكاليف التدريب والاستدلال، ما يُمكّن من تعميم بحوث الذكاء الاصطناعي المتقدمة.

نموذج صغير، منطق كبير: تحسين مُشَجَّعٌ بالتنوع يُنْتِجُ قُدرةَ التفكير المُتَوَسِّعَةَ في VibeThinker-1.5B

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

نموذج صغير، منطق كبير: تحسين مُشَجَّعٌ بالتنوع يُنْتِجُ قُدرةَ التفكير المُتَوَسِّعَةَ في VibeThinker-1.5B

Sen Xu Yi Zhou Wei Wang Jixin Min Zhibin Yin Yingwei Dai Shixi Liu Lianyu Pang Yirong Chen Junlin Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters