شبكة واحدة عميقة ثنائية الاتجاه باستخدام LSTM لحل التعدد المعجمي للبيانات النصية

بفضل التقدم التقني والعلمي الحديث، أصبح لدينا كمية كبيرة من المعلومات مخفية في بيانات النص الغير منظمة مثل السرد الورقي/الإلكتروني، والمقالات البحثية، والتقارير السريرية. لاستخراج هذه البيانات بشكل صحيح، نظرًا للغموض الذاتي لها، يمكن لخوارزمية توضيح معنى الكلمات (WSD) تجنب العديد من الصعوبات في خط أنابيب معالجة اللغة الطبيعية (NLP). ومع ذلك، عند النظر إلى العدد الكبير من الكلمات الغامضة في لغة واحدة أو مجال تقني، قد نواجه قيودًا تحد من الانتشار الصحيح للنماذج الحالية لـ WSD. يحاول هذا البحث معالجة مشكلة خوارزميات WSD التي تعتمد على تصنيف لكل كلمة على حدة من خلال اقتراح شبكة ذاكرة طويلة المدى ثنائية الاتجاه (BLSTM) تعمل جماعيًا على جميع الكلمات الغامضة بأخذ المعاني وسلسلة السياق بعين الاعتبار. تم تقييم النموذج على معيار SensEval-3، وقد أظهرت النتائج أن أدائه يعادل أفضل الخوارزميات المستخدمة في WSD. كما نناقش كيف يمكن أن تساهم التعديلات الإضافية في تخفيف الأخطاء التي يرتكبها النموذج وتقليل الحاجة إلى المزيد من بيانات التدريب.