غليك: متجهات الرموز للتمثيلات الحرفية الصينية

من البديهي أن مهام معالجة اللغة الطبيعية (NLP) لللغات اللوجوغرافية مثل الصينية يجب أن تستفيد من استخدام معلومات الرموز في هذه اللغات. ومع ذلك، بسبب نقص الأدلة التصويرية الغنية في الرموز وضعف قدرة النماذج القياسية لرؤية الحاسوب على تعميم البيانات الحرفية، فإن طريقة فعالة لاستخدام معلومات الرموز لا تزال بحاجة إلى اكتشافها. في هذا البحث، نعالج هذه الفجوة بتقديم Glyce، وهي نواقل الرموز للتمثيلات الحرفية الصينية. نقوم بثلاثة ابتكارات رئيسية: (1) نستخدم الخطوط الصينية التاريخية (مثل خط البرونزيات، خط الختم، الصينية التقليدية وغيرها) لتغذية الأدلة التصويرية في الحروف؛ (2) نصمم هياكل شبكات العصب المت convoled (CNN) مخصصة لمعالجة صور الحروف الصينية (تُعرف باسم tianzege-CNN)؛ و(3) نستخدم تصنيف الصور كمهمة مساعدة ضمن إعداد التعلم متعدد المهام لزيادة قدرة النموذج على التعميم. نوضح أن النماذج القائمة على الرموز قادرة على تفوق النماذج القائمة على المعرفة الكلامية/الحرفية بشكل مستمر في مجموعة واسعة من مهام NLP الصينية. تمكنا من تحقيق أفضل النتائج المعروفة حتى الآن لمجموعة متنوعة من مهام NLP الصينية، بما في ذلك الوسم (NER, CWS, POS)، تصنيف أزواج الجمل، مهام تصنيف الجملة الواحدة، تحليل الاعتماد، وتسمية الدور الدلالي. على سبيل المثال، يحقق النموذج المقترح درجة F1 قدرها 80.6% على مجموعة بيانات OntoNotes الخاصة بالوسم الكيني (NER)، بزيادة 1.5% عن BERT؛ ويحقق دقة تقريبًا كاملة بنسبة 99.8% على سجل فودان لتصنيف النصوص. يمكن العثور على الكود في https://github.com/ShannonAI/glyce.