JamPatoisNLI: مجموعة بيانات الاستنتاج اللغوي الطبيعي باللهجة الجامايكية

يُقدّم JamPatoisNLI أول مجموعة بيانات مخصصة لاستنتاج اللغة الطبيعية في لغة كريولية، وهي اللغة الجامايكيّة (Jamaican Patois). تُعدّ العديد من أكثر اللغات شعبية وذات الموارد المنخفضة لغات كريولية. وغالبًا ما تستمد هذه اللغات قاموسها من لغة عالمية رئيسية، وتتميز ببنية نحوية مميزة تعكس لغات المتكلمين الأصليين وعملية تكوّن اللغة عبر عملية الكريولية. وهذا يمنحها مكانة مميزة في دراسة فعالية النقل (transfer) من النماذج المُدرّبة مسبقًا كبيرة الحجم، سواء كانت مفردة اللغة أو متعددة اللغات. وعلى الرغم من أن عملنا، إلى جانب الأبحاث السابقة، يُظهر أن نقل المعرفة من هذه النماذج إلى لغات ذات موارد منخفضة غير مرتبطة باللغات المُدرّب عليها في مجموعة التدريب، لا يكون فعّالًا جدًا، فإننا نتوقع نتائج أفضل عند تطبيقه على لغات الكريولية. وبالفعل، تُظهر تجاربنا نتائج محسّنة بشكل ملحوظ في التعلم القليل (few-shot learning) باستخدام JamPatoisNLI مقارنة باللغات غير المرتبطة، مما يساعدنا على البدء في فهم كيف تؤثر العلاقة الفريدة بين لغات الكريولية ولغاتها الأم ذات الموارد العالية على عملية النقل عبر اللغات. وتشمل مجموعة بيانات JamPatoisNLI فرضيات واقعية ناتجة عن سياقات طبيعية وفرضيات مكتوبة خبراء، وتمثل خطوة مهمة في توجيه الأبحاث نحو لغة تقليديًا مهملة، وتمثّل معيارًا مفيدًا لفهم التحديات والفرص في معالجة اللغة الطبيعية عبر اللغات.