HyperAIHyperAI
منذ 17 أيام

استكشاف السياقات عبر الجملة للتعرف على الكيانات الاسمية باستخدام BERT

Jouni Luoma, Sampo Pyysalo
استكشاف السياقات عبر الجملة للتعرف على الكيانات الاسمية باستخدام BERT
الملخص

تم التعرف على الكيانات المحددة (NER) غالبًا كمهمة تصنيف تسلسلي، حيث يتألف كل إدخال من جملة نصية واحدة. ومع ذلك، من الواضح أن المعلومات المفيدة لهذه المهمة يمكن أن تُعثر عليها غالبًا خارج نطاق سياق جملة واحدة. ورغم أن النماذج ذات الانتباه الذاتي المُقترحة حديثًا مثل BERT قادرة على التقاط العلاقات على مسافات طويلة في الإدخال بكفاءة، كما أنها تمكّن من تمثيل الإدخالات المكوّنة من عدة جمل، مما يفتح فرصًا جديدة للاستراتيجيات التي تدمج المعلومات عبر الجمل في مهام معالجة اللغة الطبيعية. في هذه الورقة، نقدم دراسة منهجية تُستكشف فيها استخدام المعلومات عبر الجمل في NER باستخدام نماذج BERT بخمس لغات. ونجد أن إضافة سياق على شكل جمل إضافية إلى إدخال BERT تؤدي بشكل منهجي إلى تحسين أداء NER في جميع اللغات المختبرة والنماذج المستخدمة. كما أن تضمين عدة جمل في كل إدخال يسمح لنا بدراسة تنبؤات الجمل نفسها في سياقات مختلفة. ونُقدّم طريقة بسيطة تُسمى "التصويت الأغلبية السياقية" (CMV) لدمج التنبؤات المختلفة للجمل، ونُظهر أن هذه الطريقة تُسهم في تحسين أداء NER باستخدام BERT بشكل إضافي. لا تتطلب طريقةنا أي تغييرات في البنية الأساسية لنموذج BERT، بل تعتمد على إعادة هيكلة الأمثلة لمرحلة التدريب والتنبؤ. وتشير التقييمات على مجموعات بيانات معيارية، بما في ذلك معايير NER CoNLL'02 وCoNLL'03، إلى أن نهجنا يمكن أن يُحسّن النتائج الحالية في مجال NER باللغة الإنجليزية، والهولندية، والفินلندية، ويحقق أفضل النتائج المُبلغ عنها باستخدام نماذج BERT باللغة الألمانية، ويُوازي الأداء المُبلغ عنه باستخدام أساليب BERT الأخرى في اللغة الإسبانية. ونُطلق جميع الأساليب المُطبقة في هذه الدراسة تحت ترخيص مفتوح.

استكشاف السياقات عبر الجملة للتعرف على الكيانات الاسمية باستخدام BERT | أحدث الأوراق البحثية | HyperAI