كيف بنينا الذكاء الاصطناعي من خلال مراقبة أطفال يسقطون الملعقة
كلما نظرت إلى طفلٍ يُسقط ملعقةً من مقعدِه، تدرك أن ما يبدو مجرد لعبٍ هو في الحقيقة تجربة علمية دقيقة. الطفل لا يُكرر الفعل من فراغ، بل يختبر قانون الجاذبية، ويُبني نموذجًا داخليًا للعالم من خلال الملاحظة الحسية، لا من خلال الكلمات. هذه اللحظة البسيطة تلقي ضوءًا على معضلة كبيرة في الذكاء الاصطناعي الحديث: نُدرّب نماذجنا على النص، لكنها لا تُدرك العالم كما نعيشه. الذكاء الاصطناعي اليوم، مثل نماذج مثل ChatGPT، يعتمد على نموذج "تلقائي التوليد" (autoregressive)، حيث يتنبأ بكلمة جديدة بناءً على الكلمات السابقة. المشكلة أن كل تنبؤ يحمل احتمال خطأ صغير، وهذه الأخطاء تتراكم بسرعة، مما يؤدي إلى ما يُعرف بـ"الهلوسة" — إجابات واقعية في الصيغة لكنها خاطئة في المضمون، مثل ذكر قضايا قانونية لم تُصدر أبدًا. وفقًا ليان لكون، كبير علماء الذكاء الاصطناعي في ميتا وحائز على جائزة تورينغ، هذه البنية متأصلة في عيب جوهري: لا تفهم النماذج السبب والنتيجة، بل تُقلّد الأنماط اللغوية فقط. لقد أظهر لكون أن كمية النصوص التي تُدرّب عليها هذه النماذج — حوالي 10^14 بايت — تبدو كبيرة، لكنها تُقلّل أمام كمية البيانات الحسية التي يجتازها طفل في سن الرابعة، التي تصل إلى 10^14 إلى 10^15 بايت سنويًا من خلال الرؤية والحركة. فالمعلومة الحسية ليست مجرد وصف، بل تجربة حقيقية. هذا هو سبب توجه لكون إلى المستقبل: الذكاء الاصطناعي القادم لن يتعلم من النص، بل من الفيديو. ميتا أطلقت نموذج V-JEPA 2، الذي يُدرّب على مشاهدة فيديوهات لبناء فهم داخلي للفيزياء والحركة، مثل توقع سقوط كوب من الطاولة. أما آبل، فطورت نموذج SlowFast-LLaVA-1.5، الذي يُميّز بين الأجسام وحركتها في الفيديوهات الطويلة، لفهم السياق الزمني والمساهمة. الرؤية هنا واضحة: لا نُدرّب الذكاء الاصطناعي على "الكلمات" أولاً، بل على "العالم" أولاً. مثلما يفهم الطفل أن لعبة ما لا تختفي عندما يُغطّى، قبل أن يتعلم اسمها، يجب أن يُدرّب الذكاء الاصطناعي على فهم القواعد الأساسية للواقع — الكتلة، الحركة، التفاعل — قبل أن يتعلم التحدث عنها. هذا التحول لا يُعد تطويرًا تراكميًا، بل ثورة جوهرية. من نموذج يشبه الطائر الذي يقلّد الأصوات، إلى نموذج يفهم العالم كما نفهمه: من خلال الحواس، من خلال التجربة. إذا نجح هذا المبدأ، سنصل إلى ذكاء اصطناعي لا يُقلّد اللغة، بل يفهم الواقع، ويُقدّر السبب والنتيجة، ويُنبئ بالمستقبل، تمامًا كما يفعل الإنسان. النتائج المحتملة ضخمة: من اكتشافات جديدة في الطب أو المناخ، إلى روبوتات قادرة على التخطيط والتفاعل في بيئات غير منظمة. أما الشركات والباحثون، فالوقت حان للاستثمار في النماذج التي تتعلم من الفيديو، والبيانات الحسية، ودمجها مع المعرفة اللغوية. لأن الذكاء الحقيقي لا يبدأ بالكلمات، بل بالنظر.
