HyperAIHyperAI
منذ 11 أيام

ToTTo: مجموعة بيانات للتحويل المُتحكم به من الجدول إلى النص

Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
ToTTo: مجموعة بيانات للتحويل المُتحكم به من الجدول إلى النص
الملخص

نقدّم مجموعة بيانات ToTTo، وهي مجموعة بيانات باللغة الإنجليزية تتناول تحويل الجداول إلى نصوص في مجال مفتوح، وتحتوي على أكثر من 120,000 مثالًا للتدريب، وتُقدّم مهمة توليد منظّمة: بالنظر إلى جدول من ويكيبيديا ومجموعة من الخلايا المميزة فيه، يتم إنتاج وصف واحد جملة. وللحصول على أهداف مُولَّدة تكون طبيعية ولكنها أيضًا مطابقة بدقة للجدول الأصلي، نُقدّم عملية بناء المجموعة حيث يقوم المُعلّقون بتعديل جمل مرشحة موجودة مسبقًا من ويكيبيديا مباشرة. كما نقدّم تحليلات منهجية لمجموعة البيانات وعملية التصنيف، بالإضافة إلى نتائج تحقّقها عدة نماذج حديثة متقدمة. وعلى الرغم من أن النماذج الحالية غالبًا ما تكون سلسة في الصياغة، إلا أنها غالبًا ما تُولّد عبارات لا تدعمها الجداول، مما يشير إلى أن هذه المجموعة يمكن أن تُشكّل معيارًا بحثيًا مفيدًا لتطوير توليد النصوص الشرطيّة ذات الدقة العالية.

ToTTo: مجموعة بيانات للتحويل المُتحكم به من الجدول إلى النص | أحدث الأوراق البحثية | HyperAI