BioSentVec: إنشاء تمثيلات جمل للنصوص البيولوجية الطبية

أصبحت تمثيلات الجمل جزءًا أساسيًا من أنظمة معالجة اللغة الطبيعية (NLP) اليوم، خاصة مع الأساليب المتقدمة للتعلم العميق. رغم توفر مُشفِّرات الجمل المدربة مسبقًا في المجال العام، إلا أنه لم تكن هناك أي منها مخصصة للنصوص البيولوجية الطبية حتى الآن. في هذا العمل، نقدم BioSentVec: أول مجموعة عامة من تمثيلات الجمل مدربة باستخدام أكثر من 30 مليون وثيقة من المقالات العلمية في PubMed والسجلات السريرية في قاعدة بيانات MIMIC-III السريرية. نقيم تمثيلات BioSentVec في مهمتين لتشابه أزواج الجمل في أنواع نصوص مختلفة. تظهر نتائج اختبارنا القياسي أن تمثيلات BioSentVec يمكنها التقاط دلالات الجمل بشكل أفضل مقارنة بالبدائل الأخرى التنافسية وتحقيق أداء رائد في كلتا المهمتين. نتوقع أن يساعد BioSentVec في تسهيل البحث والتطوير في مجال استخراج المعلومات من النصوص البيولوجية الطبية وأن يكون إضافة مكملة للموارد الموجودة في تمثيلات الكلمات البيولوجية الطبية. يمكن الوصول إلى BioSentVec بشكل عام على الرابط https://github.com/ncbi-nlp/BioSentVec