الوكلاء القائمة على النماذج اللغوية الكبيرة لرسم الخريطة التنافسية في التدقيق الواجب للملكية الدوائية

في هذه الورقة، نُقدّم ونُقيّم مكوّناً لاستكشاف المنافسين يتم استخدامه ضمن نظام ذكاء اصطناعي عامل (Agentic AI) لإجراء تدقيق سريع لأصول الأدوية. يُعدّ مكوّن استكشاف المنافسين عميلاً ذكياً يُعطى مؤشراً معيناً (Indication)، فيسترجع جميع الأدوية التي تشكل المشهد التنافسي لهذا المؤشر، ويستخرج السمات القياسية (Canonical Attributes) لهذه الأدوية. وتعتمد تعريفات المنافسين على احتياجات المستثمرين، كما أن البيانات مُحصورة بدفع اشتراكات أو تراخيص، ومُنتَشِرة بشكل متفرّق عبر قواعد بيانات متعددة، وتشهد اختلافات في التصنيف حسب المؤشر، وتتميز بأسماء متعددة (Aliases) للدواء، ومتعددة الوسائط (Multimodal)، وتتغير بسرعة. وعلى الرغم من اعتباره أفضل أداة لحل هذه المشكلة، فإن الأنظمة الحالية القائمة على نماذج اللغة الكبيرة (LLM) ليست قادرة على استرجاع جميع أسماء الأدوية المنافسة بشكل موثوق، ولا توجد حتى الآن معايير تقييم عامة مقبولة لهذا المهمة. ولسد فجوة التقييم، نستخدم عمالاً قائمة على نماذج اللغة الكبيرة لتحويل مذكرات التدقيق غير المنظمة متعددة الوسائط، التي تم جمعها على مدى خمس سنوات من صندوق استثمار بيوتكنولوجي خاص، إلى مجموعة بيانات منظمة تُمثّل معياراً تقييمياً يربط بين المؤشرات والأدوية المنافسة، مع توحيد سماتها. كما نقدّم عميلاً ذكياً جديداً، يُعرف بـ "العميل المُحكّم (LLM-as-a-judge)"، والذي يُستخدم لتصفية النتائج الزائفة (False Positives) من قائمة الأدوية التي تم التنبؤ بها، بهدف تعظيم الدقة وتقليل التصوّرات الوهمية (Hallucinations). على هذا المعيار التقييمي، حقق مكوّن استكشاف المنافسين لدينا معدل استرجاع (Recall) بلغ 83٪، ما يفوق نتائج كل من OpenAI Deep Research (65٪) وPerplexity Labs (60٪). ويتم حالياً تشغيل النظام في بيئة إنتاجية مع مستخدمين مؤسسيين، وفي دراسة حالة مع صندوق استثمار بيوتكنولوجي، انخفض وقت تحليل المنافسين من 2.5 يوم إلى حوالي 3 ساعات (بمعدل تحسين قدره 20 ضعفاً).