HyperAIHyperAI
منذ 11 أيام

بسيط لكنه قوي: معمارية مهملة لاستخراج الكيانات الاسمية المتشابكة

{Jocelyn Dunstan, Felipe Bravo-Marquez, Matias Rojas}
بسيط لكنه قوي: معمارية مهملة لاستخراج الكيانات الاسمية المتشابكة
الملخص

تمييز الكيانات المُسمّاة (NER) هو مهمة مهمة في معالجة اللغة الطبيعية تهدف إلى تحديد المقاطع النصية التي تنتمي إلى فئات محددة مسبقًا. تتجاهل الأنظمة التقليدية لتمييز الكيانات المُسمّاة الكيانات المُتداخلة، وهي كيانات تتضمنها إشارات كيانات أخرى. وعلى الرغم من اقتراح عدة طرق لمعالجة هذه الحالة، فإن معظمها تعتمد على هياكل معقدة مخصصة للمهمة، وتتجاهل قواعد مرجعية محتملة مفيدة جدًا لهذه المهمة. نحن نرى أن هذا يخلق انطباعًا مفرطًا بالتفاؤل بشأن أداء هذه الأساليب. تعيد هذه الورقة النظر في نموذج LSTM-CRF المتعدد (MLC)، وهو نهج بسيط، لكنه مُهمل، لكنه قوي، ويُبنى على تدريب نماذج تصنيف تسلسلية مستقلة لكل نوع من الكيانات. أظهرت تجارب واسعة باستخدام ثلاث مجموعات بيانات لتمييز الكيانات المُتداخلة أن أداء هذا النموذج، بغض النظر عن بساطته، يفوق أو على الأقل يوازي أداء الأساليب الأكثر تطورًا. علاوةً على ذلك، نوضح أن بنية MLC تحقق نتائج رائدة في مجال مجموعة بيانات قائمة الانتظار في شيلي من خلال دمج نماذج لغوية مُدرّبة مسبقًا. بالإضافة إلى ذلك، قمنا بتنفيذ مكتبة مفتوحة المصدر تقوم بحساب مقاييس مخصصة للمهمة لتمييز الكيانات المُتداخلة. تشير النتائج إلى أن المقاييس المستخدمة في الدراسات السابقة لا تقيس بشكل جيد قدرة النموذج على اكتشاف الكيانات المُتداخلة، في حين توفر مقاييسنا أدلة جديدة حول كيفية تعامل الطرق الحالية مع هذه المهمة.

بسيط لكنه قوي: معمارية مهملة لاستخراج الكيانات الاسمية المتشابكة | أحدث الأوراق البحثية | HyperAI