OpenAI يعترف بأن التخيلات في الذكاء الاصطناعي أمر لا مفر منه لماذا يُصرّ الذكاء الاصطناعي على اختراع الحقائق: المشكلة الكامنة وراء المعايير التي لا أحد يتحدث عنها في تقرير بحثي مكون من 25 صفحة نُشر الأسبوع الماضي، كشفت OpenAI عن حقيقة صادمة لم تُعلنها من قبل: مشكلة "الخيال" في الذكاء الاصطناعي ليست عيبًا يمكن إصلاحه بسهولة، بل هي نتيجة مباشرة لطريقة تدريب النماذج وقياس أدائها. الباحثون بقيادة آدم تاومان كالي، بالتعاون مع فريق من جامعة جورجيا تك، اكتشفوا أن النماذج الحديثة لا تُخطئ في التفكير، بل تُدرّب بشكل متعمد على تجنب قول "لا أعرف". في المقابل، كلما أبدت تأكيدًا وثيقًا، حتى لو كان خطأً، حصلت على درجة أعلى في الاختبارات. النتيجة؟ الذكاء الاصطناعي يخترع معلومات واقعية ومقنعة، حتى عندما لا يملك أي أساس حقيقي. فبدلًا من التردد، يختار التخمين — باستمرار، وبثقة. هذا التحول في الفهم لا يُعدّ تقريرًا تقنيًا فقط، بل مفارقة أخلاقية: نحن نطلب من الذكاء الاصطناعي أن يكون دقيقًا، لكننا نكافئه على التصريح بثقة في الأخطاء. الخلاصة: التخيل ليس عيبًا في الذكاء الاصطناعي، بل هو نتاج نظام تدريب يُجبره على الظهور كشخص مُحاط بالثقة، حتى لو كان يكذب.
في تقرير بحثي مُذهل يمتد إلى 25 صفحة، كشفت شركة OpenAI عن حقيقة صادمة تعيد تعريف فهمنا للذكاء الاصطناعي: تضليلات النموذج — أو ما يُعرف بـ"الهلوسة" — ليست مجرد عيب قابل للإصلاح، بل هي نتيجة حتمية لأساليب التدريب والاختبار التي نعتمد عليها حاليًا. هذا الاعتراف، الذي قاده عالم الذكاء الاصطناعي آدم تاومان كالي بالتعاون مع باحثين من معهد جورجيا للتكنولوجيا، يُعدّ تحولًا جوهريًا في حوار الصناعة حول موثوقية النماذج اللغوية الحديثة. الظاهرة التي نراها يوميًا — نماذج ذكية تُقدّم إجابات مُقنعة عن موضوعات لا تملك معلومات عنها — ليست نتيجة خلل في التفكير، بل نتيجة مباشرة لطريقة تدريب هذه الأنظمة. فعندما تُطرح أسئلة لا تملك النماذج إجابة عنها، فإنها لا تُعبّر عن تردّد أو عدم معرفة، بل تُقدّم إجابة واثقة، حتى لو كانت خاطئة. السبب؟ في كل تجربة تقييم، يُكافَأ النموذج على تقديم إجابة متكاملة، ويعاقب على قول "لا أعرف". وبالتالي، تطورت النماذج على تجنّب التصريح بالجهل، كاستراتيجية للبقاء على قيد التقييم. ما يُعمّق المشكلة هو أن معايير التقييم نفسها — مثل معايير مثل BLEU أو ROUGE — لا تُقدّر التقييم الدقيق، بل تُقدّر التشابه مع إجابات "مثالية" تم إعدادها مسبقًا. هذا يعني أن النموذج يُشجّع على التخمين المُقنع، بغض النظر عن صحته. حتى النماذج الأكبر والأكثر تطورًا، مثل GPT-4، تعاني من هذه الظاهرة، وتُقدّم معلومات خاطئة بثقة عالية، أحيانًا مع تفاصيل مُفصّلة تبدو واقعية. النتائج ليست مجرد مفارقة تقنية، بل تُشكّل تهديدًا حقيقيًا في مجالات حساسة مثل الطب، والقانون، والتعليم. فعندما يُقدّم نموذج ذكاء اصطناعي تشخيصًا طبيًا مُختلقًا بثقة، فإن الأثر يمكن أن يكون كارثيًا. والأسوأ من ذلك أن النماذج لا تُدرك أحيانًا أنها تخطئ، مما يجعل التصحيح البشري أكثر صعوبة. الحل، كما يشير التقرير، لا يكمن في تطوير نماذج أكثر ذكاءً، بل في إعادة تصميم طريقة تقييمها. يجب أن نُعدّ معايير جديدة تُكافئ الشفافية، وتُشجّع النماذج على التعبير عن عدم اليقين، وتُقيّم جودة الإجابة بحسب مصداقيتها، لا فقط بحسب تطابقها مع إجابة مُعدّة مسبقًا. كما يُقترح دمج أدوات تقييم تُقيّم القدرة على التمييز بين المعلومة الصحيحة والخاطئة، وتحفيز النماذج على قول "لا أعرف" عندما تكون غير متأكدة. هذا الاعتراف من OpenAI ليس تراجعًا، بل خطوة جريئة نحو نضج الصناعة. فالتقنية لا تُقاس فقط بقدرتها على التخيل، بل بقدرتها على معرفة حدودها. إن فهم أن "الهلوسة" ليست عيبًا، بل نتاجًا منطقيًا لبيئة التدريب، يُمكّننا من بناء أنظمة أكثر أمانًا، وشفافية، وموثوقية — وهي الخطوة الأولى نحو ذكاء اصطناعي يُعتمد عليه، لا يُستهان به.
