HyperAIHyperAI

بتكلفة تدريب بلغت 294 ألف دولار، ظهر DeepSeek-R1 على غلاف مجلة Nature، ليصبح أول نموذج واسع النطاق يجتاز مراجعة الأقران في مجلة موثوقة ويحصل على مراجعات إيجابية.

特色图像

في 17 سبتمبر/أيلول، ظهرت نتائج البحث المتعلقة بـ DeepSeek-R1 على غلاف مجلة Nature، وسرعان ما أثار هذا الخبر نقاشات حادة في الأوساط الأكاديمية العالمية. في الواقع، نُشرت نتائج البحث ذات الصلة كنسخة أولية على arXiv في يناير/كانون الثاني من هذا العام.ومع ذلك، فإن أهمية نشر هذه المقالة في مجلة Nature تكمن في أنها تمت مراجعتها من قبل هذه المجلة الموثوقة.وبعبارة أخرى، لا يتلقى الخبراء الخارجيون معلومات من اتجاه واحد فحسب، بل يتمكنون من طرح الأسئلة وطلب المزيد من المعلومات من فريق المؤلفين من خلال عملية تعاونية تحت إشراف وإدارة طرف ثالث مستقل (محرر)، وهي الأولى من نوعها في الصناعة.

الأهم من ذلك، بخلاف الورقة البحثية الأولية المنشورة في يناير والتي حددت أساليب البحث وأداء DeepSeek-R1 بناءً على سلسلة من معايير التقييم، كشفت هذه الورقة المنشورة رسميًا عن تكلفة تدريب النموذج. ووفقًا لتقرير من مجلة Nature News،وتبلغ تكلفة تدريب DeepSeek-R1 ما يعادل 294 ألف دولار أميركي فقط.على الرغم من أن شركة DeepSeek استثمرت ما يقرب من 6 ملايين دولار في برنامج الماجستير في القانون الأساسي الذي يعتمد عليه نموذج R1، إلا أن التكلفة الإجمالية لا تزال أقل بكثير من عشرات الملايين من الدولارات التي يُعتقد عمومًا في الصناعة أنها مطلوبة لتدريب النموذج الرئيسي.

* عنوان ما قبل الطباعة:

https://hyper.ai/cn/papers/2504.07128

تكلفة تدريب DeepSeek-R1

ذكرت شركة DeepSeek أن تدريب DeepSeek-R1-Zero استخدم 648 وحدة معالجة رسومية من طراز H800، واستغرق حوالي 198 ساعة. علاوة على ذلك، استخدم تدريب DeepSeek-R1 أيضًا 648 وحدة معالجة رسومية من طراز H800، واستغرق حوالي 4 أيام، أي 80 ساعة. كما استغرق بناء مجموعة بيانات SFT حوالي 5000 ساعة عمل لوحدة معالجة الرسوميات. التكاليف المحددة موضحة في الشكل أعلاه.

التعلم التعزيزي واسع النطاق يحسن قدرات التفكير

إن أهمية قدرات التفكير الاستدلالي في النماذج واسعة النطاق بديهية، وقد أصبحت توجهًا بحثيًا رئيسيًا في هذا المجال. ومع ذلك، غالبًا ما يتطلب اكتساب هذه القدرات في مرحلة ما قبل التدريب موارد حاسوبية هائلة. في هذا الصدد، أظهرت بعض الدراسات إمكانية تعزيز قدرات LLM بفعالية من خلال تحفيز سلسلة الأفكار (CoT)، أو أن تعلم مسارات تفكير استدلالي عالية الجودة ومتعددة الخطوات في مرحلة ما بعد التدريب يمكن أن يُحسّن الأداء بشكل أكبر. على الرغم من فعالية هذه الأساليب، إلا أنها لا تزال تعاني من قيود واضحة.على سبيل المثال، تؤدي عملية التفكير التي تعتمد على التعليقات التوضيحية اليدوية إلى تقليل قابلية التوسع وإدخال التحيزات المعرفية.وعلاوة على ذلك، وبما أن النموذج يقتصر على تقليد طريقة تفكير البشر، فإن أداءه مقيد بشكل أساسي بالأمثلة التي يقدمها البشر، وهو غير قادر على استكشاف مسارات تفكير أفضل تتجاوز أنماط التفكير البشري.

لمعالجة هذه المشكلة، اعتمد DeepSeek، المستند إلى DeepSeek-V3 Base8، نظام تحسين السياسات النسبية للمجموعة (GRPO) كإطار عمل للتعزيز المعزز، متجاوزًا مرحلة الضبط الدقيق المُشرف (SFT) التقليدية التي تسبق تدريب التعزيز المعزز. وقد نبع هذا الاختيار التصميمي من افتراضات الفريق:قد تؤدي أنماط التفكير المحددة بشكل مصطنع إلى الحد من استكشاف النموذج، في حين أن التدريب غير المقيد على التعلم التعزيزي قد يعزز ظهور قدرات تفكير جديدة في مجال ماجستير إدارة الأعمال.

بناءً على ذلك، طوّر الفريق نموذج DeepSeek-R1-Zero، الذي يُظهر سلوكيات استدلال متنوعة ومعقدة. لحل مسائل الاستدلال، يميل النموذج إلى توليد إجابات أطول، مُدمجًا التحقق والتأمل واستكشاف حلول مختلفة في كل إجابة. على الرغم من أن الفريق لم يُعلّم النموذج كيفية الاستدلال بشكل صريح،لكنها لا تزال تتعلم بنجاح استراتيجية تفكير أفضل من خلال التعلم التعزيزي.استخدم فريق البحث خوارزمية تحسين السياسات النسبية للمجموعة (GRPO)، وهي خوارزمية طُرحت في الأصل لتبسيط عملية التدريب وتقليل استهلاك موارد تحسين السياسات القريبة (PPO). لا تتطلب هذه الخوارزمية نموذج تقييم بنفس حجم نموذج السياسات، بل تُقدّر خط الأساس مباشرةً من نتيجة المجموعة.

علاوةً على ذلك، استخدم الفريق نظام مكافآت قائمًا على قواعد لحساب دقة المكافآت وتنسيقها. بناءً على GRPO وتصميم المكافآت، صمم الفريق قالبًا يتطلب من DeepSeek-R1-Zero توليد عملية استنتاج أولًا، ثم إنتاج إجابة نهائية. خلال التدريب، استُخدمت أسئلة استنتاج محددة بدلًا من المحفزات.


تعلم كيفية استخدام النغمة المجسمة لإعادة التفكير

على وجه التحديد، بعد تلقي سؤال المستخدم، يقوم النموذج أولاً بإخراج عملية التفكير في علامة "التفكير"، ثم يعطي الإجابة النهائية في علامة "الإجابة"، حتى يتمكن من استكشاف مسارات التفكير الفعالة في التعلم التعزيزي بشكل مستقل.استخدم فريق البحث نظام مكافآت قائم على القواعد لتقييم الإجابات التي قدمها DeepSeek-R1-Zero في التجربة، وبالتالي ضمان استقرار وقابلية التوسع في عملية التدريب.

تظهر نتائج التقييم أن درجة نجاح DeepSeek-R1-Zero في مسابقة الرياضيات AIME 2024 قد تحسنت بشكل كبير من 15.6% الأولية إلى 77.9%؛ إذا تم اعتماد استراتيجية فك التشفير المتسقة ذاتيًا، يتم تحسين الدقة بشكل أكبر إلى 86.7%، وهو ما يتجاوز المستوى المتوسط للاعبين البشر.

بالإضافة إلى المهام الرياضية، أظهر النموذج أيضًا أداءً جيدًا في مسابقات البرمجة ومشكلات الدراسات العليا في علم الأحياء والفيزياء والكيمياء، مما يؤكد بشكل كامل فعالية التعلم التعزيزي في تحسين قدرات التفكير لدى نماذج اللغة الكبيرة.


مقارنة دقة AIME لـ DeepSeek-R1-Zero أثناء التدريب مع الأداء البشري المتوسط (خط الأساس الأخضر)

علاوة على ذلك، خلال عملية التعلم التعزيزي، لم يُظهر DeepSeek-R1-Zero قدرات استدلالية أقوى تدريجيًا مع التدريب فحسب، بل أظهر أيضًا خصائص تطور ذاتي واضحة. أظهرت البيانات التجريبية أنه عند تشغيل النموذج بالتكيف الداخلي، ازداد متوسط طول الاستدلال باستمرار أثناء التدريب، وخضع مسار الاستدلال الخاص به للمراجعة المستمرة. وقد تمكن من إيقاف خطوات الاستدلال الحالية مؤقتًا ومراجعتها وتصحيحها بشكل استباقي أثناء عملية الاستدلال، مما مكّن من التفكير التأملي والاستكشاف المنهجي للحلول البديلة.

متوسط طول الاستجابة لـ DeepSeek-R1-Zero على مجموعة التدريب أثناء التعلم التعزيزي

علاوةً على ذلك، ولمعالجة تحديات مثل ضعف القراءة واختلاط اللغات، طوّر فريق البحث DeepSeek-R1 لمعالجة مشاكل ضعف القراءة وتشويش اللغة في DeepSeek-R1-Zero. ويسير عمله كما يلي: * بناءً على DeepSeek-V3، تُجمع بيانات البداية الباردة، المتسقة مع التفكير البشري، وتُدخل في DeepSeek-R1 Dev1؛ * يُجري DeepSeek-R1 Dev1 التعلم التعزيزي وأخذ العينات بناءً على البيانات، بينما يُدمج DeepSeek-R1 Dev2 مجموعات البيانات المنطقية وغير المنطقية في عملية SFT؛ * يُعزز DeepSeek-R1 Dev3 مرحلة التعلم التعزيزي الثانية لتعزيز فائدة النموذج وسلامته، ويُخرج في النهاية الإجابة إلى DeepSeek-R1.


خط أنابيب DeepSeek-R1 متعدد المراحل

من خلال النتائج التجريبية، بالمقارنة مع DeepSeek-R1-Zero و DeepSeek-R1 Dev1، فقد نجح DeepSeek-R1 في تحسين أداء تنفيذ التعليمات بشكل كبير في كل مرحلة من مراحل التطوير وحصل على درجة أعلى في معايير IF-Eval و Arena-Hard.

النتائج التجريبية لـ DeepSeek-R1 في كل مرحلة

أول نموذج واسع النطاق يجتاز مراجعة الأقران في مجلة مرموقة

باعتباره أول نموذج ماجستير في القانون يخضع لمراجعة الأقران، تصدرت ورقة بحث DeepSeek-R1 غلاف مجلة Nature فور نشرها. في مقال بعنوان "أحضروا لنا شهادات ماجستير في القانون: لماذا تُعدّ مراجعة الأقران مفيدة لنماذج الذكاء الاصطناعي"، أشارت Nature إلى أن مراجعة الأقران وسيلة فعّالة لمواجهة المبالغة التسويقية في قطاع الذكاء الاصطناعي. لم تخضع جميع نماذج الذكاء الاصطناعي واسعة النطاق تقريبًا لمراجعة الأقران المستقلة، وهي فجوة "سدّها DeepSeek أخيرًا".

في هذا الصدد، صرّح سوباراو كانبهامباتي، الباحث في جامعة أريزونا والرئيس السابق للجمعية الأمريكية للذكاء الاصطناعي (AAAI)، بأنه شارك في مراجعة الأقران، ويعتقد أن هذا اتجاه إيجابي. وأعرب عن أمله في أن يقتدي المزيد من مطوري النماذج المتطورة بهؤلاء المطورين، ويشاركوا التفاصيل التقنية لمراجعة الأقران لنماذج الذكاء الاصطناعي.

أفادت صحيفة "ويند إنفو"، وهي وسيلة إعلامية أمريكية متخصصة في التكنولوجيا، أنه مقارنةً بالنسخة الأولية الصادرة في يناير، تكشف الورقة البحثية عن تفاصيل أكثر حول عملية تدريب النموذج، وتعالج مباشرةً مشكلة التقطير المبكر. ويمكن القول إن DeepSeek-R1 يُمثل نموذجًا لممارسات بحثية أكثر شفافية وتوحيدًا في مجال الذكاء الاصطناعي في المستقبل.

مراجع:

1. https://www.nature.com/articles/d41586-025-03015-6

2. https://www.nature.com/articles/d41586-025-02979-9

3. https://www.nature.com/articles/s41586-025-09422