BIOSSES: نظام تقييم التشابه الجملة الدلالي ل المجال الطبي
الدافع: يزداد بسرعة حجم المعلومات المتاحة بصيغة نصية في المجال الطبي الحيوي. وبالتالي، أصبحت تطبيقات معالجة اللغة الطبيعية (NLP) ذات أهمية متزايدة لتسهيل استرجاع وتحليل هذه البيانات. إن حساب التشابه الدلالي بين الجملة يُعد عنصراً أساسياً في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك استرجاع النصوص والتلخيص. تم اقتراح عدد من النماذج لتقدير التشابه الدلالي بين الجمل في اللغة الإنجليزية العامة. لكن تجاربنا أظهرت أن هذه النماذج لا تغطي بشكل فعّال المعرفة الطبية الحيوية، وتُنتج نتائج ضعيفة عند تطبيقها على النصوص الطبية الحيوية.الطرق: نقترح عدة نماذج لحساب التشابه الدلالي على مستوى الجملة في المجال الطبي الحيوي، تشمل قياسات التشابه النصي، وقياسات تعتمد على تمثيلات المتجهات الموزعة للجمل التي تم تعلمها بطريقة غير مراقبة من خلال مجموعة نصية طبية حيوية ضخمة. بالإضافة إلى ذلك، نقدم نماذج تعتمد على المُصطلحات (Ontology) تستخدم مُصطلحات عامة ومتخصصة في المجال. وأخيراً، نطور نموذجاً يعتمد على الانحدار المراقب (Supervised Regression) يدمج بشكل فعّال بين مقاييس التشابه المختلفة. تم إعداد مجموعة بيانات معيارية تتكون من 100 زوج من الجمل من الأدبيات الطبية الحيوية، وتم تسميتها يدويًا من قبل خمسة خبراء بشريين، وتُستخدم لتقييم النماذج المقترحة.النتائج: أظهرت التجارب أن النموذج المُعتمد على التشابه الدلالي المراقب حقق أفضل أداء (معامل ارتباط قدره 0.836 مع التسميات البشرية المعيارية)، وتفوق على النظم المتطورة المستقلة عن المجال حتى بنسبة 42.6% من حيث معيار الارتباط لبيرسون.