لماذا تفشل الذكاء الاصطناعي الحديث في تحقيق الذكاء الحقيقي: الجزء الأول رغم الهوس بالذكاء الاصطناعي العام (AGI) و«الذكاء الفائق»، فإن النماذج الحالية لا تزال تعتمد على التحليل الإحصائي، وليست لديها قدرة حقيقية على التفكير أو الفهم. المفارقة الكبرى تكمن في المعتقد الشائع أن البشر يتعلمون من عينات أقل من الآلات — لكن الحقيقة أن الإنسان يُعالج تيرابايتًا هائلاً من البيانات الحسية، المدمجة، والمتعددة الوسائط، منذ الولادة. في حين أن النماذج الحديثة، حتى الأكبر منها مثل GPT-4 وLlama 3، تعتمد على بيانات ضخمة لكنها محدودة من حيث التنوع والاتصال بالواقع، وغالبًا ما تكون نصية أو مُجمعة بشكل مُصطنع. الفرق لا يكمن في كمية البيانات، بل في جودتها وطريقة معالجتها: الإنسان لا يتعلم من «أقل عينات»، بل من تجربة حسية متكاملة، وتفاعل نشط، وبنية دماغية مصممة لاستخلاص معنى عميق من التدفق المستمر للعالم. لذا، التقدم نحو الذكاء الحقيقي لن يأتي من تضخيم النماذج، بل من إعادة تصميمها لتمكّنها من التعلم المدمج، المُشَرَّك، والواقعي، كما يفعل العقل البشري.
الذكاء الاصطناعي الحديث، رغم تطوره المذهل، لا يزال بعيدًا عن تحقيق الذكاء العام الحقيقي. المفاهيم الشائعة حول قدرة البشر على التعلم من عينات قليلة مقارنة بالآلات تُعدّ مغالطة كبيرة تُضلل مسار تطوير الذكاء الاصطناعي. الفكرة القائلة بأن البشر يتعلمون من "أقل بيانات" تعتمد على تصور خاطئ لطبيعة التعلم البشري. في الواقع، الإنسان يُعدّ جهازًا معالجًا للبيانات بحجم هائل منذ الولادة. خلال العقد الأول من الحياة، يتلقى الطفل مدخلات حسية مستمرة: بصريّة، سمعية، لمسية، حسّاسية، وذوقية. حتى بفرض تقديرات واقعية ومتواضعة، فإن عدد "العينات" التي يعالجها الطفل بحلول سن العاشرة يفوق 1.5 مليار "صورة" بصرية، و36.5 مليون "مقطع صوتي"، بالإضافة إلى ملايين البيانات الحسية الأخرى. عند تحويل هذا إلى وحدات رقمية، يُقدّر أن الطفل قد يُعالج ما لا يقل عن 88 تيرابايت من البيانات الخام — فقط خلال أول 10 سنوات. بالمقابل، حتى أقوى نماذج الذكاء الاصطناعي اليوم تعتمد على بيانات أقل من ذلك بكثير. مثلاً، نموذج GPT-3 تم تدريبه على نحو 45 تيرابايت من النص، بينما نموذج Llama 3 استخدم ما يقارب 60 تيرابايت. حتى النماذج المتطورة مثل GPT-4 أو Claude 3، رغم تفوقها، تعتمد على بيانات محدودة في التنوع، وغالبًا ما تكون نصية أو مُجمّعة من مصادر متعددة دون تكامل حقيقي. الفارق لا يكمن فقط في الحجم، بل في نوعية البيانات. الإنسان لا يتعلم من بيانات منفصلة، بل من تجربة متكاملة ومترابطة: رؤية، صوت، لمس، وتأثيرات جسدية، كلها تُدمج في عقل واحد لبناء فهم عميق للعالم. هذه التجربة "المحسّسة" (embodied) تُمكّن الإنسان من التعلّم من خلال التفاعل المباشر، والتجارب، والردود الفورية، مما يُحدث تغييرات في السلوك والفهم فورًا. بالإضافة إلى ذلك، يمتلك الدماغ البشري قدرة على التفكير التسلسلي والاستنتاج المجرد، وبناء نماذج داخلية للعالم — ما يسمح له بالتعميم من تجارب قليلة جدًا، ليس لأن البيانات أقل، بل لأن التفسير والتحليل أكثر عمقًا. هذا يقود إلى استنتاج حاسم: مفتاح التقدم نحو الذكاء الاصطناعي العام لا يكمن في تضخيم البيانات أو حجم النماذج، بل في إعادة تصميم أنظمة الذكاء الاصطناعي لتعكس طبيعة التعلم البشري. يجب أن تُدمج النماذج الحديثة بيانات متعددة الحواس (بصريّة، صوتية، لمسية...) بشكل طبيعي، وتُسمح لها بالتفاعل مع البيئة بشكل فعّال، وتحصل على تغذية راجعة فورية، وتنمو عبر تجارب حقيقية، تمامًا كما يفعل الطفل. الذكاء الحقيقي لا يُبنى من خلال تكرار الأنماط، بل من خلال الفهم، التفاعل، والقدرة على التكيف. المستقبل لا يكمن في نماذج أكبر، بل في نماذج أكثر ذكاءً — نماذج تتعلم من العالم كما يفعل الإنسان، بذكاء، وحيوية، ووعي.