HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج ذكاء اصطناعي من جوجل يحقق دقة 69% في الإجابات الواقعية، ويُسلط الضوء على تحديات الموثوقية في المجالات الحساسة

أظهرت دراسة حديثة أجرتها فرق البحث في جوجل أن أفضل نموذج ذكاء اصطناعي متاح حاليًا يُجيب بشكل دقيق فقط في 69% من الحالات، ما يسلط الضوء على الفجوة الكبيرة بين الأداء المُعلن للذكاء الاصطناعي والواقع المُمارَس في المهام التي تتطلب دقة مطلقة. تم إطلاق "مجموعة معايير فاكتس" (FACTS Benchmark Suite) من قبل جوجل ديب مايند، وهي أداة تقييم شاملة تقيس قدرة النماذج على إنتاج إجابات مبنية على حقائق دقيقة في أربع مجالات رئيسية: الإجابة على أسئلة محددة تعتمد على المعرفة الداخلية، واستخدام البحث عبر الإنترنت بكفاءة، والاعتماد على مستندات طويلة لتقديم إجابات مدعومة، وفهم الصور وتحليلها بدقة. في هذه الاختبارات، حقق نموذج جوجل جيميني 3 برو أفضل النتائج بـ69% دقة، بينما تراجعت أداء النماذج المنافسة مثل تشات جي بي تي ودالا 2 ودالا 3، التي تراوحت دقتها بين 40% و55%، حسب نوع المهمة. هذه الأرقام تُعدّ مُقلقة، خصوصًا في سياقات حساسة مثل الصحافة، حيث يُتوقع من الصحفيين دقة مطلقة، وربما يُقال إن أي مراسل يُقدّم مادة صحفية دقة 69% لا يُعدّ مُحترفًا. لكن التحدي لا يقتصر على وسائل الإعلام. في القطاعات الحيوية مثل الرعاية الصحية، والقانون، والمالية، تُعدّ الأخطاء المُصغّرة في المعلومات مُكلفة للغاية. فمثلاً، وردت تقارير عن فريق قانوني أُوقف موظفًا بعد اكتشافه استخدام نموذج ذكاء اصطناعي لصياغة وثائق قانونية تحتوي على أحكام قضائية وهمية، ما يُعدّ مثالاً صارخًا على المخاطر المترتبة على الاعتماد الأعمى على الذكاء الاصطناعي. من جهة أخرى، يُعدّ معيار فاكتس ليس مجرد تقييم للإخفاقات، بل خريطة طريق لتحسين الأداء. من خلال تحديد أماكن التقصير بدقة، يُمكن للباحثين والشركات توجيه جهود التطوير نحو التحسين في القدرات الأساسية مثل التحقق من المصادر، والفهم السياقي، والتمييز بين المعلومات الحقيقية والوهمية. لكن حتى مع التقدم السريع، فإن النتيجة واضحة: الذكاء الاصطناعي ما زال يخطئ في ثلث حالات الإجابة، رغم تفوقه في السرعة والتدفق اللغوي. لذا، على المؤسسات التي تُركّز على الذكاء الاصطناعي لدعم اتخاذ القرار، أن تُراعي هذه الحقيقة: الأداء الجيد لا يعني الدقة المطلقة. التكامل بين الذكاء الاصطناعي والتحقق البشري لا يزال ضروريًا، خصوصًا في المهام التي تتطلب معرفة متخصصة أو مسؤولية قانونية. الذكاء الاصطناعي يُعدّ أداة قوية، لكنه لا يزال يفتقر إلى الثقة الكاملة في إنتاج الحقائق.

الروابط ذات الصلة

نموذج ذكاء اصطناعي من جوجل يحقق دقة 69% في الإجابات الواقعية، ويُسلط الضوء على تحديات الموثوقية في المجالات الحساسة | القصص الشائعة | HyperAI