HyperAIHyperAI

Command Palette

Search for a command to run...

إطار تقييم يكشف مخاطر جسيمة في استخدام الذكاء الاصطناعي في التجارب المعملية

أظهرت دراسة حديثة نُشرت في دورية Nature Machine Intelligence أن نماذج الذكاء الاصطناعي الكبيرة، بما في ذلك النماذج اللغوية والبصرية-اللغوية، لا تزال تعاني من فجوات كبيرة في معرفتها بالسلامة المخبرية، مما يجعل استخدامها في التجارب العلمية خطرًا في الوقت الراهن. وقد طوّر فريق البحث إطارًا تقييميًا جديدًا يُدعى "LabSafety Bench"، يهدف إلى اختبار قدرة هذه النماذج على التعرف على المخاطر، وتقييمها، واقتراح حلول للحد منها. شمل الإطار 765 سؤالًا متعدد الخيارات، و404 سيناريوًا واقعيًا، و3128 مهمة مفتوحة حول مسائل السلامة في المختبرات البيولوجية والكيميائية والفيزيائية والعمومية. تم تقييم 19 نموذجًا ذكاءً اصطناعيًا، منها ثمانية نماذج خاصة، وسبع نماذج لغوية مفتوحة المصدر، وأربع نماذج بصرية-لغوية مفتوحة المصدر. استُخدمت 133 سؤالًا مزدوجة (نص + صورة) لاختبار النماذج البصرية-اللغوية. أظهرت النتائج أن النماذج المتقدمة مثل GPT-4o وDeepSeek-R حققت دقة عالية في المهام الهيكلية (86.55% و84.49% على التوالي)، لكنها فشلت في المهام المبنية على السيناريوهات المفتوحة، خاصة في مجالات مثل الأشعة، والمخاطر الفيزيائية، واستخدام المعدات، والأمان الكهربائي. لم يتجاوز أي من النماذج 70% دقة في مهام التعرف على المخاطر، بينما سجلت بعض النماذج أداءً أسوأ من التخمين العشوائي في مهام مثل "الاستخدام غير الصحيح للمعدات"، مع تدني أداء النماذج المبنية على Vicuna بشكل ملحوظ، بما في ذلك InstructBlip-7B. كما أظهرت النماذج صعوبة في توقع النتائج السلبية، خصوصًا في السيناريوهات الكيميائية والسوائل الباردة جدًا (الباردة الشديدة)، رغم أداء أفضل في البيولوجيا والفيزياء. حاول الباحثون تحسين الأداء عبر التدريب المخصص، ما أدى إلى تحسن طفيف (5–10%)، لكن تقنيات متقدمة مثل التوليد المدعوم بالاسترجاع (RAG) لم تُظهر فعالية مستمرة. النتائج تؤكد أن التحسن في حجم النموذج أو تطوره لا يضمن تحسنًا في السلامة المخبرية، وأن النماذج ما زالت عرضة للتحريف (الهلوسة) وتوفير معلومات خاطئة، وهو ما قد يؤدي إلى انفجارات أو إصابات أو حتى وفيات عند التعامل مع مواد خطرة. وحذّر الباحثون من الاعتماد المفرط على الذكاء الاصطناعي في المختبرات، مطالبين بوجود رقابة بشرية صارمة على استخدامه، حتى مع تطور النماذج المستقبلية. يُعد هذا العمل أساسًا لتطوير نماذج ذكاء اصطناعي أكثر أمانًا في البيئات البحثية، ويُشجع الباحثين على استخدام أدوات مثل LabSafety Bench لتقييم النماذج قبل دمجها في العمل المخبري.

الروابط ذات الصلة

إطار تقييم يكشف مخاطر جسيمة في استخدام الذكاء الاصطناعي في التجارب المعملية | القصص الشائعة | HyperAI