HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف السياقات عبر الجملة للتعرف على الكيانات الاسمية باستخدام BERT

Jouni Luoma Sampo Pyysalo

الملخص

تم التعرف على الكيانات المحددة (NER) غالبًا كمهمة تصنيف تسلسلي، حيث يتألف كل إدخال من جملة نصية واحدة. ومع ذلك، من الواضح أن المعلومات المفيدة لهذه المهمة يمكن أن تُعثر عليها غالبًا خارج نطاق سياق جملة واحدة. ورغم أن النماذج ذات الانتباه الذاتي المُقترحة حديثًا مثل BERT قادرة على التقاط العلاقات على مسافات طويلة في الإدخال بكفاءة، كما أنها تمكّن من تمثيل الإدخالات المكوّنة من عدة جمل، مما يفتح فرصًا جديدة للاستراتيجيات التي تدمج المعلومات عبر الجمل في مهام معالجة اللغة الطبيعية. في هذه الورقة، نقدم دراسة منهجية تُستكشف فيها استخدام المعلومات عبر الجمل في NER باستخدام نماذج BERT بخمس لغات. ونجد أن إضافة سياق على شكل جمل إضافية إلى إدخال BERT تؤدي بشكل منهجي إلى تحسين أداء NER في جميع اللغات المختبرة والنماذج المستخدمة. كما أن تضمين عدة جمل في كل إدخال يسمح لنا بدراسة تنبؤات الجمل نفسها في سياقات مختلفة. ونُقدّم طريقة بسيطة تُسمى "التصويت الأغلبية السياقية" (CMV) لدمج التنبؤات المختلفة للجمل، ونُظهر أن هذه الطريقة تُسهم في تحسين أداء NER باستخدام BERT بشكل إضافي. لا تتطلب طريقةنا أي تغييرات في البنية الأساسية لنموذج BERT، بل تعتمد على إعادة هيكلة الأمثلة لمرحلة التدريب والتنبؤ. وتشير التقييمات على مجموعات بيانات معيارية، بما في ذلك معايير NER CoNLL'02 وCoNLL'03، إلى أن نهجنا يمكن أن يُحسّن النتائج الحالية في مجال NER باللغة الإنجليزية، والهولندية، والفินلندية، ويحقق أفضل النتائج المُبلغ عنها باستخدام نماذج BERT باللغة الألمانية، ويُوازي الأداء المُبلغ عنه باستخدام أساليب BERT الأخرى في اللغة الإسبانية. ونُطلق جميع الأساليب المُطبقة في هذه الدراسة تحت ترخيص مفتوح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp