HyperAIHyperAI
منذ 17 أيام

التركيز على الكيانات المحددة المحتملة أثناء اكتساب التسميات النشطة

Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi
التركيز على الكيانات المحددة المحتملة أثناء اكتساب التسميات النشطة
الملخص

تمامًا كما هو مذكور في النص، يهدف التعرف على الكيانات المعرفة (NER) إلى تحديد الإشارات إلى الكيانات المعرفة في النص غير المنظم وتصنيفها ضمن فئات كيانات معرفة محددة مسبقًا. وعلى الرغم من أن النماذج اللغوية المُدرّبة مسبقًا القائمة على التعلم العميق تساعد في تحقيق أداء تنبؤي جيد في مهام NER، إلا أن العديد من التطبيقات الخاصة بالقطاعات (domain-specific) تتطلب ما يكفي من البيانات المُعلّمة. وقد استُخدمت تقنية التعلم النشط (AL)، وهي إطار عام لمشكلة اكتساب التسميات، في مهام NER لتقليل تكلفة التسمية دون التضحية بأداء النموذج. ومع ذلك، فإن التوزيع المُتَحَيِّز بشدة بين الفئات في التوكنات (tokens) يُشكّل تحديًا في تصميم أساليب استعلام فعّالة لـ AL في NER. ونُقدِّم في هذا العمل عدة دوال لتقييم استعلامات الجمل التي تُركّز أكثر على التوكنات المحتملة ذات القيمة الموجبة، ونُقيّم هذه الدوال باستخدام استراتيجيات تقييم تكلفة مبنية على الجملة وعلى التوكن. كما نقترح أيضًا منهجية تطبيع أفضل تعتمد على البيانات لمعاقبة الجمل الطويلة جدًا أو القصيرة جدًا. وتكشف التجارب التي أجريناها على ثلاث مجموعات بيانات من مجالات مختلفة أن النهج المقترح يقلل من عدد التوكنات المُعلَّمة المطلوبة، مع تحقيق أداء تنبؤي أفضل أو مُقارِب لأداء الطرق التقليدية.

التركيز على الكيانات المحددة المحتملة أثناء اكتساب التسميات النشطة | أحدث الأوراق البحثية | HyperAI