HyperAIHyperAI
منذ 2 أشهر

BioSentVec: إنشاء تمثيلات جمل للنصوص البيولوجية الطبية

Qingyu Chen; Yifan Peng; Zhiyong Lu
BioSentVec: إنشاء تمثيلات جمل للنصوص البيولوجية الطبية
الملخص

أصبحت تمثيلات الجمل جزءًا أساسيًا من أنظمة معالجة اللغة الطبيعية (NLP) اليوم، خاصة مع الأساليب المتقدمة للتعلم العميق. رغم توفر مُشفِّرات الجمل المدربة مسبقًا في المجال العام، إلا أنه لم تكن هناك أي منها مخصصة للنصوص البيولوجية الطبية حتى الآن. في هذا العمل، نقدم BioSentVec: أول مجموعة عامة من تمثيلات الجمل مدربة باستخدام أكثر من 30 مليون وثيقة من المقالات العلمية في PubMed والسجلات السريرية في قاعدة بيانات MIMIC-III السريرية. نقيم تمثيلات BioSentVec في مهمتين لتشابه أزواج الجمل في أنواع نصوص مختلفة. تظهر نتائج اختبارنا القياسي أن تمثيلات BioSentVec يمكنها التقاط دلالات الجمل بشكل أفضل مقارنة بالبدائل الأخرى التنافسية وتحقيق أداء رائد في كلتا المهمتين. نتوقع أن يساعد BioSentVec في تسهيل البحث والتطوير في مجال استخراج المعلومات من النصوص البيولوجية الطبية وأن يكون إضافة مكملة للموارد الموجودة في تمثيلات الكلمات البيولوجية الطبية. يمكن الوصول إلى BioSentVec بشكل عام على الرابط https://github.com/ncbi-nlp/BioSentVec

BioSentVec: إنشاء تمثيلات جمل للنصوص البيولوجية الطبية | أحدث الأوراق البحثية | HyperAI