HyperAIHyperAI

Command Palette

Search for a command to run...

نحو التعرف على الكيانات الاسمية بلغة franca باستخدام BERT

Taesun Moon Parul Awasthy Jian Ni Radu Florian

الملخص

استخراج المعلومات هو مهمة مهمة في معالجة اللغة الطبيعية (NLP)، حيث يمكّن من استخراج البيانات تلقائيًا لملء قواعد البيانات العلائقية. تاريخيًا، تم إنتاج الأبحاث والبيانات للنصوص الإنجليزية، ثم تبعتها في السنوات اللاحقة مجموعات بيانات باللغة العربية والصينية (ACE/OntoNotes) والهولندية والإسبانية والألمانية (تقييمات CoNLL) والعديد من اللغات الأخرى. كان الميل الطبيعي هو التعامل مع كل لغة كمجموعة بيانات مختلفة وبناء نماذج محسنة لكل منها. في هذا البحث، ندرس نموذجًا واحدًا للاعتراف بالكيانات المسماة، يستند إلى BERT متعدد اللغات، يتم تدريبه بشكل مشترك على العديد من اللغات في آنٍ واحد، ويستطيع فك شفرة هذه اللغات بدقة أفضل من النماذج التي تم تدريبها على لغة واحدة فقط. لتحسين النموذج الأولي، ندرس استخدام استراتيجيات التنظيم مثل التعلم متعدد المهام والتحديث الجزئي للتدرج. بالإضافة إلى كونه نموذجًا واحدًا يمكنه التعامل مع عدة لغات (بما في ذلك التحويل بين الكودات)، يمكن استخدام هذا النموذج لإصدار تنبؤات بدون رصد للغة جديدة، حتى تلك التي لا تتوفر فيها بيانات التدريب، مباشرةً دون الحاجة إلى تعديل. تظهر النتائج أن هذا النموذج ليس فقط يتنافس بفعالية مع النماذج الأحادية اللغة، بل يحقق أيضًا أفضل النتائج المعروفة حاليًا لمجموعات بيانات CoNLL02 الهولندية والإسبانية ومجموعات بيانات OntoNotes العربية والصينية. علاوة على ذلك، يؤدي أداءً معقولًا على اللغات غير المعروفة مسبقًا، حيث يحقق أفضل النتائج المعروفة حاليًا للتنبؤ بدون رصد لثلاث لغات من CoNLL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp