أدوات الذكاء الاصطناعي الطبية تُقدّم علاجًا أسوأ للنساء والأقليات المهمشة
لطالما ركزت الدراسات السريرية والبحثية على الرجال البيض كمتطوعين رئيسيين، مما أدى إلى تهميش النساء والأقليات العرقية في البيانات الطبية. وعندما تم تغذية هذه البيانات غير المتوازنة إلى نماذج الذكاء الاصطناعي المستخدمة في الرعاية الصحية، ظهرت نتائج مقلقة: فهذه الأدوات لا تقدم رعاية متساوية، بل تُفاقم الفجوات الصحية الموجودة أصلاً. وفقاً لتقرير صادر عن صحيفة金融 تايمز، فإن النماذج اللغوية الكبيرة المستخدمة من قبل الأطباء — مثل GPT-4 من OpenAI وLlama 3 من Meta — تميل إلى تقليل العناية بالمرضى من النساء، وتوجههن بشكل متكرر إلى "التعامل مع الحالة في المنزل"، ما يعني تقليل التدخل الطبي الفعلي. هذا التحيز لا يقتصر على النماذج العامة. دراسة أجرها باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) كشفت أن نموذجًا صحيًا متخصصًا يُدعى Palmyra-Med، رغم تصميمه خصيصًا للرعاية الطبية، ما زال يُظهر نفس التحيزات. كما أظهر تحليل نُفذ على نموذج Gemma من جوجل (وليس نموذج Gemini الرئيسي) من قبل مدرسة لندن للاقتصاد أن النموذج يقلل من أهمية احتياجات النساء مقارنةً بالرجال. وفي دراسة سابقة، أُظهر أن هذه النماذج لا تُظهر نفس درجة التعاطف مع المرضى من الأقليات العرقية عند التعامل مع المشكلات النفسية مقارنةً بزملائهم البيض. وخلصت دراسة نُشرت في مجلة لانسيت العام الماضي إلى أن نموذج GPT-4 يُكرر صورًا نمطية تتعلق بالعرق والجنس، حيث ترتبط توصياته بخصائص ديموغرافية أكثر من كونها مبنية على الأعراض أو التشخيصات الفعلية. ووجد الباحثون أن النماذج كانت أكثر احتمالاً لاقتراح إجراءات مكلفة للمرضى من مجموعات معينة، كما أن تصورات المرضى للرعاية التي يحصلون عليها كانت متفاوتة حسب هوياتهم. هذه التحيزات تشكل تهديداً حقيقياً، خصوصاً مع التوسع السريع لدمج نماذج الذكاء الاصطناعي في المستشفيات، حيث تتنافس شركات كـ جوجل وMeta وOpenAI على استغلال السوق الطبية الضخمة. لكن التكلفة البشرية لهذا التوسع قد تكون باهظة. ففي وقت سابق من هذا العام، اشتهر نموذج جوجل الطبي Med-Gemini بارتكاب خطأ فادح في اختراع جزء جسدي غير موجود — وهو خطأ يمكن لطبيب متمرس اكتشافه بسهولة. لكن التحيزات الأقل وضوحاً، التي تُظهر تجاهلًا مزمناً لاحتياجات النساء أو المرضى من أقليات عرقية، تُعد أكثر خطورة لأنها تُضفي طابعاً "مُستنداً" على التحيزات القائمة، ما يجعلها أصعب في الكشف. السؤال الأهم: هل سيتمكن الطبيب من التمييز بين توصية صحيحة من نموذج ذكاء اصطناعي، وبين توصية متأثرة بتحيزات تاريخية؟ لا ينبغي أن يُطلب من الأطباء، أو المرضى، أن يكتشفوا الإجابة من خلال تجربة شخصية مؤلمة.