HyperAIHyperAI

Command Palette

Search for a command to run...

كشفت ورقة بحثية رائدة أسرار نموذج ديب سيك الذكاء الاصطناعي وتكاليف تدريبه

أظهرت دراسة نُشرت في دورية ناتشر أن نموذج الذكاء الاصطناعي DeepSeek-R1، الذي أثار اهتمامًا عالميًا عند إصداره في يناير، لم يتعلم من خلال نسخ إجابات نماذج ذكاء اصطناعي أخرى بل اعتمد على منهجية تعلم تكرارية مبتكرة. تم تدريب النموذج بتكلفة بلغت 294 ألف دولار أمريكي باستخدام 512 معالجًا من نوع Nvidia H800، وهو ما يُعد أقل بكثير من التكاليف التي تُنفقها شركات أمريكية مثل OpenAI. يُعد DeepSeek-R1 نموذجًا مفتوحًا المصدر، وحصل على أكثر من 10.9 مليون تنزيل على منصة Hugging Face، مما جعله الأكثر شعبية في فئة النماذج المفتوحة. تميز النموذج بقدرات استدلال متطورة في حل المسائل الرياضية والبرمجة، حيث تفوق على متوسط أداء البشر في مسابقة American Invitational Mathematics Examination. الابتكار الرئيسي في DeepSeek-R1 يكمن في استخدامه لتقنية التعلم بالتعزيز الخالص، حيث جرى تدريب النموذج على مكافأة الإجابات الصحيحة وعقاب الإجابات الخاطئة دون الحاجة إلى بيانات مُعلّمة بشرية. بدلًا من تعليمه على نمط تفكير بشري، جعل النموذج يتعلم تطوير استراتيجيات استدلال خاصة به من خلال التجربة والخطأ. استخدم النموذج تقنية تُعرف بـ"تحسين السياسة النسبية المجموعة" لتقدير جودة إجاباته داخليًا، مما خفض الحاجة إلى نماذج منفصلة لتقييم الأداء. هذا النهج دفع النموذج إلى إنتاج إجابات أطول، تتضمن التحقق من النتائج والتفكير التأملي والبحث عن حلول بديلة. أظهر النموذج تطورًا تلقائيًا خلال التدريب، حيث ازدادت مدة التفكير تدريجيًا، وظهرت علامات على "لحظة فهم" مفاجئة، مثل زيادة استخدام كلمة "انتظر" في التفكير، مما يدل على تطور في القدرة على المراقبة الذاتية. تم تطوير النموذج النهائي DeepSeek-R1 من خلال مراحل متعددة تشمل التعلم بالتعزيز، وتصحيح البيانات، والتدرب المُوجَّه بشرية لتحسين التوافق مع التفضيلات البشرية، مما جعله متفوقًا في المهام العامة والكتابة، بالإضافة إلى تحسين أداءه في مهام الاستدلال. رغم النجاح، لا يزال النموذج يعاني من مشكلات مثل خلط اللغات، وصعوبة في تفسير سير التفكير، وحساسية تجاه الصياغة، كما أنه لا يدعم استخدام الأدوات الخارجية مثل المتصفحات أو الآلات الحاسبة. تمت مراجعة النموذج من قبل خبراء، واعتُبرت عملية المراجعة العلمية المفتوحة سابقة مهمة في مجال الذكاء الاصطناعي، حيث تساهم في تقييم المخاطر وتعزز الشفافية. يُنظر إلى DeepSeek-R1 كنموذج رائد في تطوير نماذج ذكية قادرة على التعلم الذاتي، ويُتوقع أن يُشجع شركات أخرى على اعتماد منهجيات مماثلة لخفض التكاليف وزيادة الكفاءة.

الروابط ذات الصلة