HyperAI

لقد اتخذت هذه المجموعة من المهندسين خطوة كبيرة إلى الأمام في مجال البرمجة اللغوية العصبية الصينية في أوقات فراغهم

特色图像

قال أحدهم أنه إذا كنت قد درست معالجة اللغة الطبيعية (NLP)، فسوف تعرف مدى صعوبة معالجة اللغة الطبيعية باللغة الصينية.

على الرغم من أن كليهما ينتمي إلى البرمجة اللغوية العصبية، إلا أن هناك اختلافات كبيرة في التحليل والمعالجة بين اللغتين الإنجليزية والصينية بسبب العادات اللغوية المختلفة، كما أن الصعوبات والتحديات مختلفة أيضًا.

بعض الأساليب في البرمجة اللغوية العصبية الصينية

علاوة على ذلك، فإن بعض النماذج الشائعة حاليًا تم تطويرها في الغالب للغة الإنجليزية. بالإضافة إلى عادات الاستخدام الفريدة للغة الصينية، فإن العديد من المهام (مثل تقسيم الكلمات) صعبة للغاية، مما يؤدي إلى تقدم بطيء للغاية في مجال معالجة اللغة الطبيعية الصينية.

ولكن هذا النوع من المشاكل قد يتغير قريبا، لأنه منذ العام الماضي، ظهرت العديد من المشاريع مفتوحة المصدر الممتازة، والتي عززت بشكل كبير تطوير مجال معالجة اللغة الطبيعية في الصين.

النموذج: ALBERT صيني مدرب مسبقًا

في عام 2018، أطلقت Google نموذج اللغة BERT، وهو تمثيلات ترميز ثنائية الاتجاه من المحولات. بفضل أدائها القوي للغاية، اكتسحت مخططات العديد من معايير معالجة اللغة الطبيعية (NLP) بمجرد إصدارها وتم الإشادة بها على الفور باعتبارها تحفة فنية.

ولكن أحد عيوب BERT هو أنه كبير جدًا. يحتوي BERT-large على 300 مليون معلمة، مما يجعل تدريبه صعبًا للغاية. في عام 2019، أطلقت Google AI نموذج ALBERT خفيف الوزن (A Little BERT)، والذي يحتوي على معلمات أصغر بمقدار 18 مرة من نموذج BERT، ولكن أداءه أفضل.

مقارنة الأداء عند إطلاق ALBERT

على الرغم من أن AlBERT يحل مشكلة تكلفة التدريب العالية والعدد الهائل من معلمات النماذج المدربة مسبقًا، إلا أنه لا يزال يستهدف السياقات الإنجليزية فقط، مما يجعل المهندسين الذين يركزون على التطوير الصيني يشعرون بالعجز قليلاً.

من أجل جعل هذا النموذج قابلاً للاستخدام في السياق الصيني وإفادة المزيد من المطورين، فتح فريق مهندس البيانات Xu Liang أول نموذج ALBERT صيني مدرب مسبقًا في أكتوبر 2019.

حصل المشروع على أكثر من 2200 إعجاب على GitHub

معرض المشاريع
https://github.com/brightmart/albert_zh

تم تدريب نموذج ALBERT الصيني المدرب مسبقًا (المشار إليه باسم albert_zh) على مجموعة بيانات صينية ضخمة. يأتي محتوى التدريب من موسوعات متعددة، وأخبار، ومجتمعات تفاعلية، بما في ذلك 30 جيجابايت من النصوص الصينية وأكثر من 100 مليار حرف صيني.

من مقارنة البيانات، تم تعيين طول تسلسل ما قبل التدريب الخاص بـ albert_zh إلى 512، وحجم الدفعة هو 4096، ويولد التدريب 350 مليون بيانات تدريب. نموذج تدريب مسبق قوي آخر، roberta_zh، يولد 250 مليون بيانات تدريب بطول تسلسل يبلغ 256.

يؤدي التدريب المسبق لـ albert_zh إلى إنشاء المزيد من بيانات التدريب واستخدام تسلسلات أطول. ومن المتوقع أن يكون أداء albert_zh أفضل من roberta_zh وأن يتمكن من التعامل مع النصوص الأطول بشكل أفضل.

مقارنة أداء albert_zh والنماذج الأخرى

بالإضافة إلى ذلك، قام albert_zh بتدريب سلسلة من نماذج ALBERT بأحجام معلمات مختلفة، من tiny إلى xlarge، مما عزز بشكل كبير شعبية ALBERT في مجال معالجة اللغة الطبيعية الصينية.

ومن الجدير بالذكر أنه في يناير 2020، أصدرت Google AI برنامج ALBERT V2، ثم أطلقت ببطء النسخة الصينية من ALBERT من Google.

المعيار: ChineseGLUE للغراء الصيني

بمجرد أن نحصل على النماذج، كيف نحكم ما إذا كانت جيدة أم سيئة؟ يتطلب هذا معيار اختبار جيد بدرجة كافية. وفي العام الماضي أيضًا، أصبح معيار ChineseGLUE لمعالجة اللغة الطبيعية الصينية مفتوح المصدر.

يعتمد برنامج ChineseGLUE على معيار الاختبار الشهير في الصناعة GLUE، وهو عبارة عن مجموعة من تسع مهام لفهم اللغة الإنجليزية. ويهدف إلى تعزيز البحث في أنظمة فهم اللغة الطبيعية العامة والقوية.

في السابق، لم يكن هناك إصدار صيني يتوافق مع GLUE، ولم يكن من الممكن الحكم على بعض النماذج المدربة مسبقًا في الاختبارات العامة على مهام مختلفة، مما أدى إلى عدم التوافق في تطوير وتطبيق معالجة اللغة الطبيعية في المجال الصيني، وحتى التأخير في التطبيق التكنولوجي.

وفي مواجهة هذا الوضع، أطلق الدكتور Zhenzhong Lan، المؤلف الأول لـ AlBERT، وXu Liang، مطور ablbert_zh، وأكثر من 20 مهندسًا آخرين معيارًا مشتركًا لمعالجة اللغة الطبيعية الصينية: ChineseGLUE.

معرض المشاريع
https://github.com/chineseGLUE/chineseGLUE

سمح ظهور ChineseGLUE بإدراج اللغة الصينية كمؤشر لتقييم النماذج الجديدة، وتشكيل نظام تقييم كامل لاختبار النماذج الصينية المدربة مسبقًا.

يتضمن معيار الاختبار القوي هذا الجوانب التالية:

1) معيار مهمة اللغة الصينية يتكون من عدة جمل أو أزواج جمل، تغطي مهام لغوية متعددة على مستويات مختلفة.

2) توفير قائمة تصنيف لتقييم الأداء، والتي سيتم تحديثها بانتظام لتوفير أساس لاختيار النموذج.

3) مجموعة من نماذج المعايير، بما في ذلك الكود المبدئي، والنماذج المدربة مسبقًا، ومعايير المهام ChineseGLUE، والتي تتوفر في أطر عمل مثل TensorFlow وPyTorch وKeras.

4) أن يكون لديك مجموعة ضخمة من النصوص الأصلية للبحث في مجال التدريب المسبق أو نمذجة اللغة، والتي تبلغ حوالي 10 جيجابايت (2019)، ومن المخطط توسيعها إلى مجموعة كافية من النصوص الأصلية (مثل 100 جيجابايت) بحلول نهاية عام 2020.

أضاف المشروع موقعًا إلكترونيًا للمراجعة في أكتوبر 2019

ومن المتوقع أن يشهد إطلاق ChineseGLUE وتحسينه المستمر ولادة نماذج معالجة اللغة الطبيعية الصينية أكثر قوة، تمامًا كما شهد GLUE ظهور BERT.

في نهاية ديسمبر 2019، تم نقل المشروع إلى مشروع أكثر شمولاً وأكثر دعمًا من الناحية الفنية: CLUEbenchmark/CLUE.

معرض المشاريع
https://github.com/CLUEbenchmark/CLUE

البيانات: مجموعة البيانات الأكثر اكتمالاً وأكبر مجموعة بيانات في التاريخ

مع النماذج المدربة مسبقًا ومعايير الاختبار، هناك رابط مهم آخر وهو موارد البيانات مثل مجموعات البيانات والمجموعات.

وقد أدى هذا إلى ظهور منظمة أكثر شمولاً، وهي CLUE، وهي اختصار لكلمة GLUE الصينية. وهي منظمة مفتوحة المصدر تقدم معايير تقييم لفهم اللغة الصينية. تشمل مجالات تركيزهم: المهام ومجموعات البيانات، والمعايير، والنماذج الصينية المدربة مسبقًا، والمجموعات والإصدارات التصنيفية.

قبل فترة من الوقت، أصدرت CLUE أكبر وأشمل مجموعة بيانات معالجة اللغة الطبيعية الصينية، والتي تغطي 142 مجموعة بيانات في 10 فئات، CLUEDatasetSearch.

عرض واجهة صفحة الويب النهائية

معرض المشاريع
https://github.com/CLUEbenchmark/CLUEDatasetSearch

يتضمن محتواه جميع الاتجاهات الرئيسية للبحث الحالي مثل NER، وضمان الجودة، وتحليل المشاعر، وتصنيف النصوص، وتعيين النص، وتلخيص النص، والترجمة الآلية، والرسوم البيانية المعرفية، والمجموعات، وفهم القراءة.

كل ما عليك فعله هو كتابة الكلمات الرئيسية، أو المعلومات مثل الحقول ذات الصلة على صفحة موقع الويب، ويمكنك البحث عن الموارد المقابلة. توفر كل مجموعة بيانات معلومات مثل الاسم ووقت التحديث والمزود والوصف والكلمات الرئيسية والفئة وعنوان الورقة.

في الآونة الأخيرة، فتحت منظمة CLUE 100 جيجابايت من البيانات الصينية ومجموعة من النماذج الصينية عالية الجودة المدربة مسبقًا، وقدمت ورقة بحثية إلى arViv.

https://arxiv.org/abs/2003.01355

من حيث مجموعة النصوص، قامت CLUE بفتح مصدر CLUECorpus2020: مجموعة نصوص ما قبل التدريب واسعة النطاق للصينيين 100G من مجموعة النصوص ما قبل التدريب الصينية.

تم الحصول على هذه المحتويات بعد تنظيف مجموعة البيانات الخاصة بالجزء الصيني من مجموعة بيانات الزحف المشتركة.

يمكن استخدامها بشكل مباشر للتدريب المسبق أو نموذج اللغة أو مهام توليد اللغة، أو نشر مفردات صغيرة خصيصًا لمهام معالجة اللغة الطبيعية الصينية.

مقارنة الأداء على أساس BERT باستخدام مجموعات بيانات صغيرة

معرض المشاريع
https://github.com/CLUEbenchmark/CLUECorpus2020

فيما يتعلق بجمع النماذج، تم إصدار CLUEPretrainedModels: مجموعة من النماذج الصينية المدربة مسبقًا عالية الجودة - النماذج الكبيرة الأكثر تقدمًا، والنماذج الصغيرة الأسرع، والنماذج الخاصة بالتشابه.

مقارنة أداء الطراز الكبير (الصف الثالث)

يحقق النموذج الكبير نفس النتائج التي يحققها أفضل نموذج معالجة اللغة الطبيعية الصيني الحالي، بل ويتفوق حتى على بعض المهام. النموذج الصغير أسرع بحوالي 8 مرات من النموذج القائم على Bert. يتم استخدام نموذج التشابه الدلالي لمعالجة مشاكل التشابه الدلالي أو أزواج الجمل، ومن المرجح أن يكون أفضل من استخدام نموذج مدرب مسبقًا بشكل مباشر.

معرض المشاريع
https://github.com/CLUEbenchmark/CLUEPretrainedModels

إن إطلاق هذه الموارد، إلى حد ما، يشبه الوقود الذي يحرك عملية التنمية، وقد تفتح الموارد الكافية الطريق أمام التطور السريع لصناعة معالجة اللغة الطبيعية في الصين.

إنهم يجعلون البرمجة اللغوية العصبية الصينية سهلة

من الناحية اللغوية، تعد اللغتان الصينية والإنجليزية اللغتين الأكثر عدداً من المستخدمين والأعظم تأثيراً في العالم. ومع ذلك، بسبب خصائص لغتهم المختلفة، فإنهم يواجهون أيضًا مشاكل مختلفة في مجال البحث في مجال معالجة اللغة الطبيعية.

على الرغم من أن تطوير معالجة اللغة الطبيعية الصينية أكثر صعوبة ويتأخر عن البحث في اللغة الإنجليزية، والتي يمكن للآلات فهمها بشكل أفضل، إلا أن المهندسين المذكورين في المقالة على استعداد لتعزيز تطوير معالجة اللغة الطبيعية الصينية ومواصلة استكشاف نتائجهم ومشاركتها حتى يمكن تكرار هذه التقنيات بشكل أفضل.

العديد من المساهمين في الكود في CLUE

بفضل جهودهم ومساهماتهم في العديد من المشاريع عالية الجودة! وفي الوقت نفسه، نأمل أن يتمكن المزيد من الأشخاص من المشاركة وتعزيز تطوير البرمجة اللغوية العصبية الصينية بشكل مشترك.

-- زيادة--