تبسيط استخدام القاموس في التعرف على الكيانات الاسمية باللغة الصينية

في الآونة الأخيرة، حاولت العديد من الدراسات تعزيز أداء التعرف على الكيانات المسماة في اللغة الصينية (NER) باستخدام قواميس الكلمات. كمثال بارز، حقق نموذج Lattice-LSTM (زhang و Yang، 2018) نتائج معيارية جديدة على عدة مجموعات بيانات عامة للتعرف على الكيانات المسماة في اللغة الصينية. ومع ذلك، فإن هندسة النموذج في Lattice-LSTM معقدة للغاية، مما يحد من تطبيقاتها في العديد من المجالات الصناعية التي تتطلب استجابات فورية للتعرف على الكيانات المسماة.في هذه الدراسة، نقترح طريقة بسيطة ولكن فعالة لدمج قاموس الكلمات في تمثيلات الحروف. هذه الطريقة تتجنب تصميم هندسة نمذجة متسلسلة معقدة، ولأي نموذج عصبي للتعرف على الكيانات المسماة، يتطلب الأمر فقط تعديلًا طفيفًا في طبقة تمثيل الحروف لإدخال معلومات القاموس. أظهرت الدراسات التجريبية على أربع مجموعات بيانات معيارية للتعرف على الكيانات المسماة باللغة الصينية أن طرحتنا تحقق سرعة استدلال تصل إلى 6.15 مرة أسرع من تلك الخاصة بأحدث الأساليب، بالإضافة إلى أداء أفضل. كما بينت النتائج التجريبية أن الطريقة المقترحة يمكن دمجها بسهولة مع النماذج المدربة مسبقًا مثل BERT.