Command Palette
Search for a command to run...
العوامل التشخيصية المتطورة في بيئة سريرية افتراضية
العوامل التشخيصية المتطورة في بيئة سريرية افتراضية
الملخص
في هذه الورقة، نقدّم إطارًا لتدريب النماذج اللغوية الكبيرة (LLMs) كوكلاء تشخيصيّين باستخدام التعلّم بالتعزيز، مما يمكّنها من إدارة عمليات تشخيص متعددة الدورات، واختيار الفحوصات بشكل تكيفي، والتوصّل إلى تشخيص نهائي. على عكس النماذج المُعدّلة حسب التعليمات التي تُدرّب على ملخصات حالات ثابتة، فإنّ منهجنا يكتسب استراتيجيات التشخيص من خلال الاستكشاف التفاعلي والتعليقات القائمة على النتائج. تتمثّل مساهماتنا في أربعة جوانب رئيسية: (أ) نقدّم DiagGym، وهو نموذج عالم تشخيصي مدرّب باستخدام السجلات الصحية الإلكترونية، يُولّد نتائج الفحوصات بشرط التاريخ المرضي للمريض والفحوصات الموصى بها، ويُشكّل بيئة سريرية افتراضية لتدريب وتقييم التشخيص بشكل واقعي؛ (ب) ندرّب DiagAgent باستخدام تعلّم بالتعزيز متعدد الدورات ونهج التدريب من الطرف إلى الطرف (end-to-end) لتعلم سياسات تشخيصية تُحسّن كلاً من كمية المعلومات المُستخلصة ودقة التشخيص؛ (ج) نقدّم DiagBench، وهو معيار تشخيصي يتضمّن 750 حالة مدعومة بمقترحات فحوصات مُختبرة من قبل الأطباء، و99 حالة مُعلّمة بـ 973 معيارًا كُتبها أطباء لتقييم عملية التشخيص؛ (د) نُظهر أداءً متفوّقًا في مختلف البيئات التشخيصية. يتفوّق DiagAgent بشكل كبير على 10 نماذج لغوية كبرى حديثة، بما في ذلك DeepSeek-v3 وGPT-4o، وكذلك على وكيلين مُصمّمين باستخدام تقنيات تهيئة النص (prompt-engineered). في البيئات ذات الدورة الواحدة، يحقّق DiagAgent دقة تشخيصية أعلى بنسبة 9.34%، وتحسينًا بنسبة 44.03% في نسبة انتشار اقتراحات الفحوصات الناجحة. وفي البيئات المتكاملة من الطرف إلى الطرف، يُسجّل ارتفاعًا بنسبة 15.12% في دقة التشخيص، وزيادة بنسبة 23.09% في معامل F1 لاقتراحات الفحوصات. وفي التقييم القائم على المعايير (rubric-based)، يتفوّق على أفضل نموذج مُنافس، وهو Claude-sonnet-4، بنسبة 7.1% في المعيار الموزون للمعايير. تشير هذه النتائج إلى أنّ تعلّم السياسات داخل بيئات سريرية تفاعلية يمنح القدرات التشخيصية ديناميكية وذات معنى سريري، لا يمكن تحقيقها من خلال التدريب السلبي وحده.