HyperAIHyperAI

Command Palette

Search for a command to run...

غليك: متجهات الرموز للتمثيلات الحرفية الصينية

Yuxian Meng; Wei Wu; Fei Wang; Xiaoya Li; Ping Nie; Fan Yin; Muyu Li; Qinghong Han; Xiaofei Sun; Jiwei Li

الملخص

من البديهي أن مهام معالجة اللغة الطبيعية (NLP) لللغات اللوجوغرافية مثل الصينية يجب أن تستفيد من استخدام معلومات الرموز في هذه اللغات. ومع ذلك، بسبب نقص الأدلة التصويرية الغنية في الرموز وضعف قدرة النماذج القياسية لرؤية الحاسوب على تعميم البيانات الحرفية، فإن طريقة فعالة لاستخدام معلومات الرموز لا تزال بحاجة إلى اكتشافها. في هذا البحث، نعالج هذه الفجوة بتقديم Glyce، وهي نواقل الرموز للتمثيلات الحرفية الصينية. نقوم بثلاثة ابتكارات رئيسية: (1) نستخدم الخطوط الصينية التاريخية (مثل خط البرونزيات، خط الختم، الصينية التقليدية وغيرها) لتغذية الأدلة التصويرية في الحروف؛ (2) نصمم هياكل شبكات العصب المت convoled (CNN) مخصصة لمعالجة صور الحروف الصينية (تُعرف باسم tianzege-CNN)؛ و(3) نستخدم تصنيف الصور كمهمة مساعدة ضمن إعداد التعلم متعدد المهام لزيادة قدرة النموذج على التعميم. نوضح أن النماذج القائمة على الرموز قادرة على تفوق النماذج القائمة على المعرفة الكلامية/الحرفية بشكل مستمر في مجموعة واسعة من مهام NLP الصينية. تمكنا من تحقيق أفضل النتائج المعروفة حتى الآن لمجموعة متنوعة من مهام NLP الصينية، بما في ذلك الوسم (NER, CWS, POS)، تصنيف أزواج الجمل، مهام تصنيف الجملة الواحدة، تحليل الاعتماد، وتسمية الدور الدلالي. على سبيل المثال، يحقق النموذج المقترح درجة F1 قدرها 80.6% على مجموعة بيانات OntoNotes الخاصة بالوسم الكيني (NER)، بزيادة 1.5% عن BERT؛ ويحقق دقة تقريبًا كاملة بنسبة 99.8% على سجل فودان لتصنيف النصوص. يمكن العثور على الكود في https://github.com/ShannonAI/glyce.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp