HyperAIHyperAI
منذ 11 أيام

إطار توليدي موحد لمهام فرعية مختلفة في الاستخراج العددي للإسناد

Hang Yan, Tao Gui, Junqi Dai, Qipeng Guo, Zheng Zhang, Xipeng Qiu
إطار توليدي موحد لمهام فرعية مختلفة في الاستخراج العددي للإسناد
الملخص

تمييز الكيانات (NER) هو المهمة التي تتمثل في تحديد الفترات التي تمثل كيانات في الجمل. بغض النظر عما إذا كانت فترات الكيانات متشابكة أو منفصلة، يمكن تصنيف مهمة NER إلى مهام فرعية هي: NER المستوية، وNER المتشابكة، وNER المنفصلة. وقد تم حل هذه المهام الفرعية بشكل رئيسي باستخدام تصنيف التسلسل على مستوى الرموز (token-level sequence labelling) أو التصنيف على مستوى الفترات (span-level classification). ومع ذلك، فإن هذه الحلول لا تُعدّ قادرة على معالجة الثلاثة أنواع من مهام NER في آن واحد. ولتحقيق ذلك، نقترح صياغة المهام الفرعية لـ NER كمهمة إنشاء تسلسل فترات الكيانات، والتي يمكن حلها باستخدام إطار عمل موحد يعتمد على التوليد التسلسلي (Seq2Seq). وباستنادنا إلى هذا الإطار الموحد، يمكننا الاستفادة من النماذج المُدرَّبة مسبقًا على التوليد التسلسلي لحل جميع المهام الثلاثة دون الحاجة إلى تصميم خاص ل.Schema التصنيف أو طرق خاصة لاستنفاد الفترات. ونستخدم ثلاث أنواع من تمثيلات الكيانات لتحويل الكيانات إلى تسلسل خطي. ويتميز الإطار المُقترح بالسهولة في التنفيذ، ويحقق أداءً متفوقًا أو قريبًا من الأداء المتفوق (SoTA) على ثمانية مجموعات بيانات NER باللغة الإنجليزية، تشمل نوعين من مجموعات بيانات NER المستوية، وثلاثة مجموعات بيانات NER متشابكة، وثلاثة مجموعات بيانات NER منفصلة.

إطار توليدي موحد لمهام فرعية مختلفة في الاستخراج العددي للإسناد | أحدث الأوراق البحثية | HyperAI