إطلاق OpenAI لمنصة LifeSciBench لتقييم قدرات الذكاء الاصطناعي في البحث العلمي لعلوم الحياة
أطلقت مجموعة بحثية منصة LifeSciBench، وهي أداة تقييم جديدة مصممة خصيصاً لقياس قدرات الذكاء الاصطناعي في مهام علوم الحياة التطبيقية، بهدف سد الفجوة بين الإجابات النموذجية والمتطلبات المعقدة للبحث العلمي الحقيقي. تعتمد المنصة على سبعمئة وخمسين مهمة تم تطويرها بواسطة مئة وثلاثة وسبعين عالماً متخصصاً في الصناعة الدوائية، وتغطي سبعة سير عمل بحثية رئيسية تشمل معالجة الأدلة، التصميم التجريبي، والتواصل العلمي. تتميز المهام بطبيعتها متعددة الخطوات، حيث تتطلب من النماذج تحليل ألف ومئة واثنين وعشرين ملفاً مرفقاً، وتطبيق مقاييس تقييم تفصيلية تتجاوز عشرين ألف معيار لقياس الدقة المنهجية وجاهزية المخرجات للقرارات البحثية. أظهرت نتائج التقييم، التي خضعت لمراجعة مستقلة من أكثر من أربعمئة وخمسين خبيراً، تقدماً واضحاً في قدرات النماذج المتقدمة مثل GPT-Rosalind مقارنة بسابقاتها، لا سيما في مجالات التركيب العلمي والترجمة الدوائية وإدارة الشكوك. ومع ذلك، كشفت المنصة عن قصور ملحوظ في التعامل مع البيانات المعقدة والتصميم التجريبي الدقيق، حيث انخفضت معدلات النجاح بشكل حاد في المهام التي تعتمد على الملفات المرفقة أو تتطلب مخرجات رقمية وجزيئية محددة، مما يعكس التحديات القائمة في دقة المخرجات العلمية. يؤكد المطورون أن هذه الأداة تمثل خطوة نحو قياس الفائدة العملية للذكاء الاصطناعي في المختبرات، لكنها لا تغني عن الدراسات طويلة الأمد في بيئات العمل الفعلية. تشير النتائج إلى ضرورة التركيز المستقبلي على ربط الأداء المعياري بتحسين سير العمل البحثي المباشر، ومراقبة تفاعل الباحثين مع الأنظمة الذكية عبر دورات تجريبية متعددة لتأكيد التأثير الحقيقي على تسريع الاكتشاف العلمي.
