محددات الأقسام المستندة إلى النماذج اللغوية الكبيرة تتفوق في البرمجيات المفتوحة المصدر لكنها تعثر في التطبيقات الواقعية

سجلات الصحة الإلكترونية (EHR)، رغم أنها تمثل نعمة للعاملين في مجال الرعاية الصحية، إلا أنها تزداد تعقيدًا وطولًا يومًا بعد يوم. تصفح هذه السجلات الطويلة أمر مرهق ويصبح جزءًا ثقيلًا من التفاعل بين الطبيب والمريض. قد تم اقتراح العديد من الطرق لمساعدتهم على تخفيف هذه المشكلة الشائعة، سواء عن طريق التلخيص أو التقسيم، ومع ذلك لم تكن سوى عدد قليل منها مفيدة حقًا في الماضي. مع ظهور الأساليب الآلية، أظهرت تقنيات التعلم الآلي (ML) وعدًا في حل مهمة تحديد الأقسام ذات الصلة في سجلات الصحة الإلكترونية. ومع ذلك، فإن معظم طرق التعلم الآلي تعتمد على البيانات المصنفة التي يصعب الحصول عليها في مجال الرعاية الصحية. من ناحية أخرى، حققت النماذج اللغوية الكبيرة (LLMs) إنجازات مثيرة للإعجاب في معالجة اللغة الطبيعية (NLP)، وذلك حتى بدون أي بيانات مصنفة (في وضع الصفر). بناءً على ذلك، نقترح استخدام النماذج اللغوية الكبيرة لتحديد عناوين الأقسام ذات الصلة. وجدنا أن GPT-4 يمكنه حل المهمة بكفاءة في كل من وضع الصفر وأوضاع القليل من البيانات، وكذلك يقوم بتقسيم السجلات بشكل أفضل بكثير من أفضل الطرق الحالية. بالإضافة إلى ذلك، قمنا أيضًا بتصنيف مجموعة بيانات حقيقية أكثر صعوبة ووجدنا أن GPT-4 يواجه صعوبات في أداء المهمة بشكل جيد، مما يشير إلى ضرورة إجراء المزيد من البحث وإنشاء مقاييس أصعب.