HyperAIHyperAI
منذ 16 أيام

XCOPA: مجموعة بيانات متعددة اللغات للاستدلال العقلي السببي

Edoardo Maria Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vulić, Anna Korhonen
XCOPA: مجموعة بيانات متعددة اللغات للاستدلال العقلي السببي
الملخص

لمحاكاة قدرة الإنسان على اللغة، يجب أن تكون أنظمة معالجة اللغة الطبيعية قادرة على التفكير في ديناميكيات المواقف اليومية، بما في ذلك الأسباب والنتائج المحتملة لها. علاوةً على ذلك، ينبغي أن تكون قادرة على تعميم المعرفة العالمية المكتسبة إلى لغات جديدة، مع مراعاة الفروقات الثقافية. يعتمد التقدم في التفكير الآلي ونقل اللغة عبر اللغات على توفر معايير تقييم صعبة ومحفزة. مستلهمين من هاتين الحاجتين، نقدّم XCOPA، وهي مجموعة بيانات متعددة اللغات متنوعة من الناحية الطبوغرافية للتفكير المشترك السببي بلغات 11 لغة، بما في ذلك لغات محدودة الموارد مثل الكيتشوا الشرقية في أبوريماك وهايتيان الكريول. قمنا بتقييم مجموعة من النماذج الرائدة في هذا المجال على هذه المجموعة الجديدة من البيانات، وتبين أن أداء الطرق الحالية القائمة على التدريب المسبق متعدد اللغات والضبط الصفرية (zero-shot fine-tuning) يُظهر أداءً أقل مقارنةً بأسلوب نقل الترجمة. وأخيرًا، نقترح استراتيجيات لتعديل النماذج متعددة اللغات لتناسب لغات غير مُدرَّجة في العينة (out-of-sample) ذات الموارد المحدودة، حيث تتوفر فقط مجموعة نصية صغيرة أو قاموس ثنائي اللغة، ونُسجّل تحسينات كبيرة مقارنةً بالقاعدة العشوائية. تُتاح مجموعة بيانات XCOPA مجانًا على موقع github.com/cambridgeltl/xcopa.

XCOPA: مجموعة بيانات متعددة اللغات للاستدلال العقلي السببي | أحدث الأوراق البحثية | HyperAI