تميّزات تمثيلات الكلمات الطبية المحسّنة في العصر التحويلي

تُدرَّس تضمينات الكلمات الطبية الحيوية عادةً مسبقًا على مجموعات نصية مجانية باستخدام أساليب عصبية تُمكّن من التقاط الخصائص التوزيعية المحلية والعالمية. وتُستخدَم هذه التضمينات في المهام اللاحقة من خلال هياكل عصبية متنوعة مصممة لتحسين الأهداف الخاصة بالمهام، والتي قد تُعدّل هذه التضمينات بشكل إضافي. ومع ذلك، منذ عام 2018، شهدنا تحولًا ملحوظًا من التضمينات الثابتة نحو التضمينات السياقية، مدفوعًا بنموذجات اللغة (مثل ELMo، والمحولات مثل BERT، وULMFiT). تتميز هذه التضمينات الديناميكية بقدرتها على التمييز بين المُصطلحات المُتشابهة في الكتابة أو التسمية (مثل المُتَعَبِّرات والمُختَصَّرات) بناءً على السياق. ومع ذلك، تبقى التضمينات الثابتة ذات صلة في البيئات ذات الموارد المحدودة (مثل الأجهزة الذكية وأجهزة إنترنت الأشياء) ولدراسة الدلالات اللفظية من منظور علم اللغة الحسابي. في هذه الورقة، نتعلم بشكل مشترك تضمينات الكلمات والمفاهيم، وذلك أولاً باستخدام طريقة skip-gram، ثم نُحسّنها لاحقًا باستخدام معلومات الترابط التي تتجلى في تكرار ظهور مفاهيم التصنيف الطبي (MeSH) المتزامنة في الإشارات الطبية. ويتم تحقيق هذه العملية المُحسَّنة باستخدام بنية المحول BERT في نمط المدخل المكوَّن من جملتين، مع هدف تصنيف يُمكّن من التقاط التكرار المشترك بين أزواج مفاهيم MeSH. وبشكل جوهري، نعيد استخدام بنية المحول (التي تُستخدم عادةً لتكوين تضمينات ديناميكية) بهدف تحسين التضمينات الثابتة باستخدام الارتباطات بين المفاهيم. ونُجري تقييمات على هذه التضمينات الثابتة المُحسَّنة باستخدام عدة مجموعات بيانات لقياس صلة الكلمات، تم تطويرها من قبل جهود سابقة. وباستثناء الحذف المُنتقى للمفاهيم والكلمات (كما كان مُتبعًا في الدراسات السابقة)، نعتقد أننا نقدّم أكثر التقييمات شمولاً للضمنيات الثابتة حتى الآن، مع تحسينات واضحة في الأداء على جميع المستويات. ونُزوّد بالكود والمضمنات التي نُنتجها للاستخدام العام، لدعم التطبيقات اللاحقة والأبحاث العلمية: https://github.com/bionlproc/BERT-CRel-Embeddings