HyperAIHyperAI
منذ 2 أشهر

XNLI: تقييم تمثيلات الجمل عبر اللغات

Alexis Conneau; Guillaume Lample; Ruty Rinott; Adina Williams; Samuel R. Bowman; Holger Schwenk; Veselin Stoyanov
XNLI: تقييم تمثيلات الجمل عبر اللغات
الملخص

أنظمة معالجة اللغة الطبيعية الأكثر تقدماً تعتمد على الإشراف في شكل بيانات مصنفة لتعلم نماذج كفؤة. يتم تدريب هذه النماذج عادةً على بيانات بلغة واحدة (غالباً ما تكون الإنجليزية)، ولا يمكن استخدامها مباشرة خارج تلك اللغة. نظرًا لأن جمع البيانات في كل لغة ليس واقعيًا، فقد ازداد الاهتمام بفهم اللغة العابرة لللغات (XLU) ونقل اللغات ذات الموارد المنخفضة. في هذا العمل، قمنا ببناء مجموعة تقييم لـ XLU من خلال توسيع مجموعات التطوير والاختبار في مكتبة الاستدلال اللغوي الطبيعي متعددة الأنواع (MultiNLI) إلى 15 لغة، بما في ذلك اللغات ذات الموارد المنخفضة مثل السواحيلية والأوردية. نأمل أن يحفز مجموعتنا的数据集,命名为XNLI,通过提供一个有信息量的标准评估任务来促进跨语言句子理解的研究。此外,我们提供了几种多语言句子理解的基线方法,包括两种基于机器翻译系统的方法,以及两种利用平行数据训练对齐的多语言词袋和LSTM编码器的方法。我们发现XNLI代表了一个实用且具有挑战性的评估套件,并且直接翻译测试数据在现有的基线方法中表现最佳。修正后的翻译:نأمل أن يحفز مجموعتنا من البيانات، التي أطلقنا عليها اسم XNLI، البحث في فهم الجمل العابر لللغات من خلال تقديم مهمة تقييم قياسية ومعلوماتية. بالإضافة إلى ذلك، نقدم عدة أسس لفهم الجمل متعددة اللغات، منها اثنتان تعتمدان على أنظمة الترجمة الآلية، واثنتان تستخدمان البيانات المتوازية لتدريب مشفرات متعددة اللغات تم ضبطها باستخدام طريقة حقيبة الكلمات (bag-of-words) وطريقة LSTM. لقد وجدنا أن XNLI تمثل مجموعة تقييم عملية ومليئة بالتحديات وأن الترجمة المباشرة للبيانات الاختبارية حققت أفضل الأداء بين الأسس المتاحة.