OpenAI تُظهر أن ChatGPT قادر على أداء بعض المهام الوظيفية بجودة تُشبه البشر
أظهر تقرير جديد صادر عن شركة OpenAI أن نماذج الذكاء الاصطناعي الحديثة، مثل ChatGPT، قادرة بالفعل على أداء مهام عمل حقيقية بجودة تقترب من مستوى البشر في عدد من المهن. يأتي هذا التقرير في سياق تزايد الشكوك حول فعالية الاستثمارات في الذكاء الاصطناعي، بعد دراسة أجرتها وحدة مختبرات ماساتشوستس للتكنولوجيا (MIT Media Lab) التي كشفت أن أقل من 10% من مشاريع الذكاء الاصطناعي تحقق مكاسب مالية قابلة للقياس، وحذرت من أن 95% من الشركات لا تستفيد من مبادراتها التكنولوجية. كما اتهم باحثون من "هارفارد بزنس ريفيو" و"مختبر وسائل التواصل الاجتماعي بجامعة ستانفورد" ما وصفوه بـ"العمل الزائد" (workslop)، أي المخرجات الذكية التي تُقدَّم كعمل جيد لكنها لا تضيف قيمة حقيقية للمهام. للمواجهة، طرحت OpenAI معيارًا جديدًا يُدعى GDPval، مصمم لاختبار قدرة النماذج على أداء مهام واقعية ذات قيمة اقتصادية حقيقية، بدلاً من التقييمات الأكاديمية الافتراضية التي تُستخدم عادة. يركّز GDPval على 44 مهنة من بين الأبرز في التصنيف الاقتصادي الأمريكي، ضمن تسع قطاعات رئيسية تشمل العقارات، والحكومة، والتصنيع، والمالية، مع التركيز على ما يُعرف بـ"العمل المعرفي" الذي يُعدّ من أعلى المرتبات. تم بناء مجموعة المهام بالتعاون مع محترفين ذوي خبرة متوسطة 14 عامًا، الذين صمموا مهامًا حقيقية مثل صياغة وثائق قانونية، وإعداد خطط رعاية تمريضية، أو تصميم مخططات هندسية، مع تقديم أمثلة نموذجية من إنتاج البشر. تم تقييم سبعة نماذج ذكاء اصطناعي رائدة على 220 مهمة من مجموعة "الذهبية" (gold set) من GDPval، باستخدام خبراء من نفس المجالات التي تمثلها المهام، دون معرفة أي من النتائج صُنعت بواسطة إنسان أو ذكاء اصطناعي. النتائج أظهرت أن نموذج Claude Opus 4.1 تفوق بفارق كبير، حيث حقق معدل نجاح وتعادل بنسبة 47.6% مقارنة بالبشر، وتميز بجودة التصميم والتنسيق البصري. جاء GPT-5 high في المرتبة الثانية بنسبة 38.8%، بفضل دقة التنفيذ والحسابات. أما GPT-4o فقد تصدر الترتيب الأخير بـ12.4% فقط. أظهرت النماذج أداءً متميزًا في مهام متكررة وواضحة مثل عمل موظفي الاستقبال، وموظفي التخزين، ومديري المبيعات، ومطوري البرمجيات، بينما واجهت صعوبات في مهام تتطلب تقييمًا دقيقًا أو إبداعًا معقدًا مثل هندسة الصناعات، أو صياغة خطط مالية، أو تحرير الفيديو. وفقًا لـOpenAI، يمكن للنماذج الحالية إنجاز هذه المهام بسرعة تفوق البشر بـ100 مرة، وبتكلفة تقل عن 1% من التكلفة البشرية. لكن الشركة أكدت أن الذكاء الاصطناعي لن يحل محل البشر بالكامل، لأن معظم الوظائف لا تُختزل في مهام قابلة للتوثيق، بل تتطلب تفكيرًا نقديًا، واتخاذ قرارات، وفهم سياقي عميق. وفقًا لـOpenAI، فإن GDPval يُظهر كيف يمكن للذكاء الاصطناعي أداء المهام الروتينية، مما يحرر البشر لتركيز طاقاتهم على الجوانب الإبداعية والتحليلية في العمل، ما يُعدّ تحولًا إيجابيًا في طبيعة الإنتاجية.