HyperAIHyperAI
منذ 11 أيام

XF2T: توليد النص من الحقائق عبر اللغات للغات ذات الموارد المحدودة

Shivprasad Sagare, Tushar Abhishek, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma
XF2T: توليد النص من الحقائق عبر اللغات للغات ذات الموارد المحدودة
الملخص

تتطلب العديد من السيناريوهات التجارية توليدًا تلقائيًا للنصوص الوصفيّة القابلة للقراءة من قبل البشر من بيانات منظمة. ولهذا السبب، تم تطوير أنظمة توليد النص من الحقائق (Fact-to-Text Generation) لأغراض متعددة مثل إعداد تقارير عن مباريات كرة القدم، والتقارير الجوية والمالية، والتقارير الطبية، وسيرة الأشخاص، وغيرها. ومع ذلك، فإن الأبحاث السابقة في مجال توليد النص من الحقائق (F2T) ركّزت بشكل أساسي على اللغة الإنجليزية، وذلك نظرًا لتوفر مجموعات بيانات ذات صلة بكثرة. وفقط مؤخرًا، تم اقتراح مسألة توليد النص من الحقائق عبر اللغات (XF2T) لتوليد النصوص عبر لغات متعددة، مع إصدار مجموعة بيانات تُدعى XALIGN تغطي ثمانية لغات. لكن لم تُجرَ أي دراسة دقيقة حتى الآن على مسألة توليد النص من الحقائق عبر اللغات (XF2T) فعليًا. نوسع مجموعة بيانات XALIGN بإضافة بيانات مُعلّمة لארבע لغات إضافية: البنجابية، الماليالامية، الأسامية، والأوريا. ونُجري دراسة شاملة باستخدام نماذج توليد النص القائمة على معمارية Transformer على مجموعة البيانات متعددة اللغات الموسّعة التي نسميها XALIGNV2. كما نستعرض أداء استراتيجيات مختلفة لتوليد النص: تنويعات متعددة للتدريب المسبق، وتمثيلات واعية بالحقائق، وترميز مدخلات واعية بالهيكل. تُظهر تجاربنا الواسعة أن نموذج mT5 متعدد اللغات الذي يستخدم تمثيلات واعية بالحقائق مع ترميز مدخلات واعٍ بالهيكل يحقق أفضل النتائج في المتوسط عبر اثنتي عشرة لغة. ونُشر الكود، وبيانات التدريب، والنماذج بشكل مفتوح، ونأمل أن يُسهم ذلك في دفع عجلة الأبحاث المستقبلية في هذا المجال الحيوي.

XF2T: توليد النص من الحقائق عبر اللغات للغات ذات الموارد المحدودة | أحدث الأوراق البحثية | HyperAI