ملاحظات على الذكاء الاصطناعي في نهاية عام 2025 على مدار سنوات، ورغم تراكم الأدلة الوظيفية والمؤشرات العلمية، ظل بعض باحثي الذكاء الاصطناعي يصرّون على وصف النماذج اللغوية الكبيرة (LLMs) بأنها "ببغاوات احتمالية" – آلات احتمالية لا تمثل معنى المُدخل، ولا تمثل ما ستحدد قوله. لكن في عام 2025، توقفت أغلب هذه الادعاءات فجأة. الآن، أصبحت "سلاسل التفكير" (Chain of Thought) أسلوبًا جوهريًا لتحسين أداء النماذج. لكن ما هي سلسلة التفكير فعلاً؟ ولماذا تُحسّن النتائج؟ أرى أن الأمر ينطوي على جزأين: أولًا، تُمثّل سلسلة التفكير عملية عينة داخل التمثيلات الداخلية للنموذج (أي شكل من أشكال البحث الداخلي). بمجرد أن تُدرج معلومات ومفاهيم ذات صلة بمواضيع المُدخل في نافذة السياق، يصبح النموذج قادرًا على إنتاج إجابة أكثر دقة. ثانيًا، عند دمج هذا المفهوم مع التعلم المُعزّز (Reinforcement Learning)، يتعلم النموذج كيف يرتب كل رمز (token) تلو الآخر – حيث يُحدث كل رمز حالة جديدة في النموذج – من أجل التقارب نحو إجابة مفيدة. الاعتقاد بأن التوسع في الأداء محدود بعدد الرموز (tokens) المتاحة لم يعد صحيحًا. بفضل التعلم المُعزّز مع مكافآت قابلة للتحقق، يمكن للنماذج الاستمرار في التحسين لفترات طويلة. نحن لم نصل بعد إلى "الحركة 37" في لعبة AlphaGo، لكن هل هذا مستحيل في المستقبل؟ هناك مهام محددة – مثل تحسين أداء برنامج ما من حيث السرعة – حيث يمكن للنموذج، نظريًا، المضي قدمًا بفضل إشارة مكافأة واضحة لفترة طويلة. أعتقد أن تطوير التعلم المُعزّز لاستخدامه مع النماذج اللغوية الكبيرة سيكون هو التطور التالي الأهم في الذكاء الاصطناعي. وقد تراجعت مقاومة المبرمجين تجاه البرمجة المدعومة بالذكاء الاصطناعي بشكل كبير. حتى لو أخطأت النماذج أحيانًا، فإن قدرتها على إنتاج كود مفيد وتقديم تلميحات وصلت إلى مستوى يُجبر الكثيرون من المتشككين على استخدامها. الآن، عائد الاستثمار أصبح مقبولًا لعدد كبير من المطورين. يظل العالم البرمجي مقسّمًا بين من يستخدم النماذج كزملاء (مثلاً، كل تفاعلي يتم عبر واجهة الويب لـ Gemini وClaude...)، وبين من يستخدمها كوكالات برمجية مستقلة. بعض العلماء البارزين في مجال الذكاء الاصطناعي يعتقدون أن ما حدث مع معمارية Transformer يمكن أن يتكرر – بل ويتحسن – عبر مسارات مختلفة. وبدأوا بتشكيل فرق وشركات لاستكشاف بدائل لـ Transformer، مثل النماذج التي تمتلك تمثيلات رمزية صريحة أو نماذج عالمية. أرى أن النماذج اللغوية الكبيرة هي آلة قابلة للتمايز، تدربت على فضاء يُمكّنها من تقريب خطوات التفكير المنفصلة، ولا يُستبعد أن تُسهم في تحقيق الذكاء الاصطناعي العام (AGI) حتى دون ظهور نماذج جوهرية جديدة. من المرجح أن يُمكن تحقيق AGI عبر مسارات متنوعة ومتعددة جذريًا. يُدّعي البعض أن سلسلة التفكير غيّرت طبيعة النماذج اللغوية بشكل جوهري، ولهذا تغير موقفهم من قبل. لكنهم يكذبون. المعمارية ما زالت نفسها، والهدف ما زال هو التنبؤ بالرمز التالي. وسلسلة التفكير تُنشَأ بالضبط بنفس الطريقة: رمزًا تلو آخر. وأصبحت اختبارات ARC أقل تأثيرًا من ذي قبل. هناك نماذج صغيرة مُخصّصة للاختبار أظهرت أداءً مقبولًا في ARC-AGI-1، بينما نماذج ضخمة مع سلسلة تفكير مطولة حققت نتائج مبهرة في ARC-AGI-2 – رغم أن معمارية النموذج، بحسب كثير من الخبراء، لم تكن تُتوقع أن تُحقّق هذا الأداء. بمعنى ما، تحول اختبار ARC من "اختبار مُعَارض للنماذج اللغوية" إلى "اختبار تأكيد لقدراتها". التحدي الجوهري في الذكاء الاصطناعي خلال العقدين المقبلين هو تجنّب الانقراض.
في نهاية عام 2025، أصبحت مفاهيم الذكاء الاصطناعي تشهد تحولاً جذرياً في التقييم العلمي، خصوصاً فيما يتعلق بقدرات النماذج اللغوية الكبيرة (LLMs). لسنوات، ظلّ بعض الباحثين يصرّون على وصف هذه النماذج بأنها "ببغاوات احتمالية" – آلات تعتمد على التوليد العشوائي دون أي فهم حقيقي للمحتوى أو تخطيط داخلي. لكن بحلول 2025، تراجعت هذه المغالطات بشكل شبه كامل، وانهار الموقف المتشائم تدريجياً مع تراكم الأدلة التجريبية والمنطقية. المحور الرئيسي في هذا التحول هو "التفكير المتسلسل" (Chain of Thought - CoT)، الذي لم يعد مجرد تقنية مساعدة، بل أصبح أسلوباً جوهرياً لتحسين دقة وفعالية النماذج. فما هو CoT فعلاً؟ إنها ليست مجرد تسلسل مُعدّ مسبقاً، بل تجربة داخلية تشبه البحث في مساحة المعرفة المخزنة في النموذج. بمجرد أن تُدخل معلومات وفكرة متعلقة بالسؤال في النافذة السياقية، يُمكن للنموذج تفعيل تمثيلات داخليّة مُتعلقة بالسياق، مما يُمكّنه من توليد إجابة أكثر دقة. ولكن المفتاح الحقيقي يكمن في دمج CoT مع التعلم المُعزّز (Reinforcement Learning)، حيث يتعلم النموذج تدريجياً كيف يُصيّر كل رمز (token) يُولّدُه تغيراً في حالته الداخلية، نحو إجابة مفيدة ومتسلسلة. هذا التكامل يُغيّر من طبيعة التطور: فبينما كان يُعتقد أن التوسع في الأداء محدود بحجم السياق (عدد الرموز)، أصبحت المكافآت القابلة للتحقق – التي تُقدّم تغذية راجعة مباشرة – تُمكّن النماذج من التحسّن لفترة طويلة، حتى في مهام معقدة مثل تحسين أداء البرامج. في هذا السياق، لم تعد مفاهيم مثل "مُحور غو 37" (مُحور لعب مُبهر في لعبة غو) مجرد أحلام، بل أصبحت ممكناً فعلاً، خصوصاً في مهام ذات معايير واضحة. تراجعت مقاومة المبرمجين للاستخدام المُساعِد بالذكاء الاصطناعي بشكل كبير. فرغم بقاء الأخطاء، باتت النماذج قادرة على إنتاج كود مفيد واقتراح حلول فعّالة، ما جعل العائد على الاستثمار مقبولاً لمعظم المطورين. وانقسم العالم البرمجي الآن بين من يُعامل النموذج كزميل تعاون، ومن يُستخدمه كوكيل مستقل يُنفّذ المهام تلقائياً. في المقابل، تُظهر موجة جديدة من الباحثين – بمن فيهم أسماء بارزة – اهتماماً بابتكار مسارات بديلة لـ Transformers، من خلال نماذج تُدمج التمثيلات الرمزية أو نماذج عالمية (World Models). لكن، برأيي، لا داعي للاختراق الجذري: فـ LLMs، بفضل قدرتها على التمثيل التفاضلي ومحاكاة خطوات التفكير المنفصلة، قد تُسهم في تحقيق الذكاء العام (AGI) حتى دون تغيير جوهري في المعمارية. وربما تُحقَق AGI عبر مسارات متعددة، بخلاف الاعتقاد السائد بأنها مُستحيلة إلا بنهج جديد. أما بخصوص اختبار ARC، فقد تغيرت نظرة العالم له. فما كان يُنظر إليه كـ"اختبار مُنافٍ لـ LLMs" أصبح اليوم دليلاً على قدرتها. فموديلات صغيرة مُخصّصة تُنجز مهام جيدة في ARC-AGI-1، بينما تُحقّق نماذج ضخمة بتمثيل تفكير متسلسل نتائج مبهرة في ARC-AGI-2 – رغم أن بنيتها كانت تُعتبر غير ملائمة لذلك. فهذا التحول يُشير إلى أن LLMs لم تُثبت فقط قدرتها على التعلّم، بل أيضاً على التكيّف والابتكار في مهام معرفية عميقة. التحدي الأكبر في عصر الذكاء الاصطناعي لا يكمن في التقدّم التقني، بل في تجنّب المخاطر الكارثية على المدى الطويل. فرغم التفاؤل المُتزايد، تبقى مسؤولية توجيه هذا التقدّم نحو مصلحة البشرية، وضمان سلامته، هي المهمة الأسمى لعشرة أعوام قادمة.
