تقنية التقريب تجعل نماذج الذكاء الاصطناعي أصغر وأرخص: كيف أحدثت شركة ديبسيك الصينية هزة في الصناعة
كيف يساعد التقطير على تصغير نماذج الذكاء الاصطناعي وتخفيض تكاليفها في وقت سابق من هذا العام، أطلقت شركة الذكاء الاصطناعي الصينية "DeepSeek" روبوت الدردشة "R1"، الذي لفت انتباه الكثيرين. كان معظم هذا الاهتمام متركزًا على ادعاء الشركة بأنها تمكنت من بناء روبوت دردشة يتفوق في أدائه على نماذج الشركات العالمية الرائدة في مجال الذكاء الاصطناعي، باستخدام جزء صغير فقط من القوة الحوسبة والتكلفة. نتيجة لذلك، انخفضت أسهم العديد من الشركات التكنولوجية الغربية بشكل حاد؛ فقد خسرت شركة "Nvidia" التي تبيع الشرائح الإلكترونية المستخدمة في تشغيل نماذج الذكاء الاصطناعي الرائدة، قيمة سهمية أكبر في يوم واحد مما خسرته أي شركة أخرى في التاريخ. بعض هذا الاهتمام تضمن عناصر اتهامية. زعمت مصادر أن "DeepSeek" حصلت على معرفة من نموذج "o1" الخاص بشركة "OpenAI" دون إذن، وذلك باستخدام تقنية تسمى "التقطير". وقد ركزت معظم التغطيات الإخبارية على هذه الإمكانية كصدمة للصناعة، وكأن "DeepSeek" اكتشفت طريقة جديدة وأكثر كفاءة لبناء الذكاء الاصطناعي. لكن الحقيقة هي أن التقطير، المعروف أيضًا باسم "التقطير المعرفي"، هو أداة شائعة في مجال الذكاء الاصطناعي، وهو موضوع بحث في العلوم الحاسوبية يعود تاريخه إلى عقد من الزمن، ويُستخدم من قبل الشركات التكنولوجية الكبرى في نماذجها الخاصة. مفهوم التقطير المعرفي بدأ فكرة التقطير بورقة بحثية نُشرت عام 2015، من قبل ثلاثة باحثين في غوغل، بما في ذلك جيفري هينتون، المعروف بـ"أبو الذكاء الاصطناعي" والذي فاز بجائزة نوبل في العام 2024. في ذلك الوقت، كان الباحثون غالبًا يستخدمون مجموعات من النماذج — "عديد من النماذج ملتصقة معًا" — لتحسين أداءها. "لكن تشغيل جميع النماذج بالتوازي كان أمرًا مرهقًا ومكلفًا للغاية"، قال أوريول فينيالس، أحد مؤلفي الورقة البحثية وعالم رئيسي في غوغل "DeepMind". أدرك الباحثون أنهم قد يجعلون التقدم إذا تناولوا نقطة ضعف ملحوظة في خوارزميات التعلم الآلي: كانت الإجابات الخاطئة تعتبر سيئة بنفس الدرجة، بغض النظر عن مدى خطئها. على سبيل المثال، في نموذج تصنيف الصور، "كان الخلط بين الكلب والثعلب يُعاقب بنفس الطريقة التي يُعاقب بها الخلط بين الكلب والبيتزا"، قال فينيالس. اشتبه الباحثون أن مجموعات النماذج تحتوي على معلومات حول أي الإجابات الخاطئة أقل سوءًا من الأخرى. ربما يمكن لنموذج أصغر "طالب" استخدام المعلومات من نموذج كبير "معلم" لفهم الفئات التي يجب تصنيف الصور إليها بشكل أسرع. أطلق هينتون على هذه المعلومات "المعرفة المظلمة"، مستخدمًا تشبيهًا بمادة الظل الكوني. بعد مناقشة هذه الإمكانية مع هينتون، طور فينيالس طريقة لنقل المزيد من المعلومات حول فئات الصور من نموذج المعلم الكبير إلى نموذج الطالب الأصغر. كانت الفكرة الأساسية هي التركيز على "الأهداف اللينة" في نموذج المعلم — حيث يتم تعيين احتمالات لكل احتمال بدلاً من إجابات قاطعة. على سبيل المثال، قد حسب نموذج ما أن هناك احتمال بنسبة 30% لأن تكون الصورة لكلب، و20% لأن تكون لقطة، و5% لأن تكون لبقرة، و0.5% لأن تكون لسيارة. من خلال استخدام هذه الاحتمالات، كشف نموذج المعلم للمتعلم أن الكلاب مشابهة للقطط، ولكنها ليست مختلفة كثيرًا عن البقر، وأنها تختلف بشكل كبير عن السيارات. وجد الباحثون أن هذه المعلومات تساعدهم على تعلم كيفية تحديد صور الكلاب والقطط والبقر والسيارات بكفاءة أكبر. يمكن تقليل نموذج كبير ومعقد إلى نموذج أصغر بكثير مع خسارة طفيفة في الدقة. النمو السريع للتقطير لم تكن الفكرة ناجحة بشكل فوري. رُفضت الورقة البحثية من مؤتمر، وشعر فينيالس بالإحباط وانصرف إلى مواضيع أخرى. لكن التقطير جاء في وقت مهم. في تلك الفترة، كان المهندسون يكتشفون أن كلما زودوا الشبكات العصبية بمزيد من البيانات التدريبية، أصبحت هذه الشبكات أكثر فعالية. ازداد حجم النماذج بسرعة كبيرة، وكذلك قدراتها، لكن تكاليف تشغيلها ارتفعت بنسق متناسب مع حجمها. توجه العديد من الباحثين إلى التقطير كوسيلة لصنع نماذج أصغر. في عام 2018، على سبيل المثال، كشف باحثو غوغل عن نموذج لغوي قوي يُدعى "BERT"، الذي بدأت الشركة باستخدامه لمعالجة مليارات عمليات البحث على الإنترنت. لكن "BERT" كان كبيرًا ومكلفًا في التشغيل، لذا في العام التالي، طور مطورون آخرون نسخة أصغر منه تُدعى "DistilBERT"، والتي أصبحت تستخدم على نطاق واسع في الأعمال والأبحاث. أصبح التقطير شائعًا بشكل تدريجي، وهو الآن مقدم كخدمة من قبل شركات مثل غوغل، "OpenAI"، وأمازون. حصلت الورقة البحثية الأصلية، التي لا تزال نشرت فقط على موقع arxiv.org، على أكثر من 25,000 استشهادات. تطبيقات جديدة للتقطير رغم أن التقطير يتطلب الوصول إلى داخليات نموذج المعلم، فإنه ليس ممكنًا لجهة ثالثة أن تسرق البيانات من نموذج مغلق المصدر مثل "o1" الخاص بـ"OpenAI" بطريقة خفية. ومع ذلك، يمكن لنموذج الطالب أن يتعلم الكثير من نموذج المعلم من خلال طرح أسئلة معينة واستخدام الإجابات لتدريب نماذجه الخاصة — وهي طريقة تشبه الطريقة السقراطية للتقطير. في الوقت نفسه، يستمر باحثون آخرون في اكتشاف تطبيقات جديدة للتقطير. في يناير الماضي، أظهر مختبر "NovaSky" في جامعة كاليفورنيا بيركلي أن التقطير يعمل بشكل جيد في تدريب نماذج التفكير السلس، التي تستخدم خطوات متعددة من "التفكير" للإجابة بشكل أفضل على الأسئلة المعقدة. يقول المختبر إن نموذجه "Sky-T1" المفتوح المصدر بالكامل تكلفة تدريبه أقل من 450 دولارًا، وحقق نتائج مشابهة لنموذج مفتوح المصدر كبير الحجم. "كنا فعليًا مفاجئين بمدى فعالية التقطير في هذا الإعداد"، قال داشنغ لي، طالب الدكتوراه في بيركلي وقائد فريق "NovaSky". "التقطير هو تقنية أساسية في الذكاء الاصطناعي". تقييم الحدث من قبل المختصين يرى الباحثون في مجال الذكاء الاصطناعي أن التقدم الذي حققته تقنية التقطير يمثل خطوة مهمة نحو جعل النماذج أكثر كفاءة وتوفير التكاليف. تعتبر تقنية التقطير أداة قوية تتيح للشركات الصغيرة والباحثين الوصول إلى مستويات عالية من الأداء دون الحاجة إلى موارد حاسوبية ضخمة. هذا التطور يمكن أن يساهم في زيادة المنافسة في السوق وتعزيز الابتكار، مما يجعل التكنولوجيا أكثر جاذبية ومتاحة للجميع. نبذة عن شركة DeepSeek "DeepSeek" هي شركة صينية ناشئة في مجال الذكاء الاصطناعي، تأسست بهدف توفير حلول ذكاء اصطناعي متطورة وبتكلفة معقولة. اشتهرت الشركة بروبوت الدردشة "R1" الذي أثار جدلًا كبيرًا بسبب ادعاها بالأداء المتميز مع استخدام موارد حاسوبية أقل. رغم الجدل، فإن نجاح "R1" يقدم دليلًا قويًا على فعالية تقنية التقطير في تحسين كفاءة النماذج وتخفيض تكاليفها.