HyperAIHyperAI
منذ 17 أيام

FarsTail: مجموعة بيانات الاستدلال اللغوي الطبيعي بالفارسية

Hossein Amirkhani, Mohammad AzariJafari, Zohreh Pourjafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Azadeh Amirak
FarsTail: مجموعة بيانات الاستدلال اللغوي الطبيعي بالفارسية
الملخص

يُعرف الاستنتاج باللغة الطبيعية (NLI) كواحدة من المهام الأساسية في معالجة اللغة الطبيعية (NLP)، حيث تُمثّل جوانب جوهرية عديدة من فهم اللغة. وبفضل الإنجازات الكبيرة التي حققتها أساليب التعلم العميق التي تستهلك كميات كبيرة من البيانات في مهام NLP، تم بذل جهد كبير لتطوير مجموعات بيانات أكثر تنوعًا للغات المختلفة. في هذه الورقة البحثية، نقدّم مجموعة بيانات جديدة لمهام الاستنتاج باللغة الطبيعية باللغة الفارسية، المعروفة أيضًا باسم الفارسية، وهي واحدة من اللغات السائدة في الشرق الأوسط. تُسمّى هذه المجموعة "FarsTail" وتحتوي على 10,367 عينة، مقدّمة باللغة الفارسية وكذلك بصيغة مفهرسة لتسهيل استخدامها على الباحثين غير الناطقين بالفارسية. تم إنشاء العينات من 3,539 سؤالاً متعدد الخيارات، بأقل قدر ممكن من التدخلات من المُعلّمين، بطريقة مشابهة لـ "SciTail". تم اعتماد عملية متعددة المراحل مصممة بدقة لضمان جودة المجموعة. كما نقدّم نتائج أساليب تقليدية وحالية في مجال التحصيل (state-of-the-art) على مجموعة FarsTail، تشمل أساليب تمثيل مختلفة مثل word2vec وfastText وELMo وBERT وLASER، بالإضافة إلى أساليب نمذجة مختلفة مثل DecompAtt وESIM وHBMP وULMFiT، بهدف توفير أساس متين للبحوث المستقبلية. بلغت أفضل دقة اختبار محققة 83.38%، مما يدل على وجود مجال واسع للتحسين في الأساليب الحالية لجعلها مفيدة في التطبيقات الحقيقية لمعالجة اللغة الطبيعية بلغات مختلفة. كما قمنا بدراسة مدى استغلال النماذج للدلائل السطحية، المعروفة أيضًا بـ "تحيّزات المجموعة"، في FarsTail، وقسمنا مجموعة الاختبار إلى مجموعتين: سهلة وصعبة، بناءً على أداء النماذج المستندة إلى هذه التحيّزات. تتوفر المجموعة على الرابط التالي: https://github.com/dml-qom/FarsTail