توليد نص من جدول مقاوم (مُتحكم به) باستخدام تعلّم التكافؤ المُدرك للهيكل

تسعى التوليد المُتحكم به للنصوص من الجداول إلى إنشاء وصفات بلغة طبيعية للجزء المُحدَّد من الجدول. لا تزال النماذج الرائدة السابقة تعتمد على منهجية التوليد من تسلسل إلى تسلسل، والتي تُقدِّم تمثيلًا خطيًا للجدول فقط، وتكون هشة عند حدوث تغييرات في تخطيط الجدول. ونهدف إلى تجاوز هذا النموذج من خلال (1) التعبير الفعّال عن العلاقات بين عناصر المحتوى في الجدول، و(2) جعل نموذجنا مقاومًا للتحويلات الهيكلية التي لا تؤثر على المحتوى. وعليه، نقترح إطارًا للتعلم المُتَّسِق (equivariance learning)، يُشَكِّل الجداول باستخدام آلية انتباه ذات وعي بالهيكل. هذا يُقلِّص الهيكل الكامل للانتباه الذاتي إلى انتباه رسم بياني غير حساس للترتيب، يُمثِّل البنية الرسومية المتصلة للخلايا التي تنتمي إلى نفس السطر أو العمود، ويُميِّز بين الخلايا ذات الصلة والخلايا غير ذات الصلة من منظور هيكلية. كما يُعدِّل إطارنا آلية الترميز المكاني لحفظ الموقع النسبي للرموز داخل نفس الخلية، مع فرض عدم الحساسية للموقع بين الخلايا المختلفة. يمكن تطبيق تقنيتنا بحرية في النماذج الحالية لتوليد النصوص من الجداول، وقد أدى ذلك إلى تحسين أداء النماذج القائمة على T5 على مجموعتي البيانات ToTTo وHiTab. علاوةً على ذلك، في نسخة أصعب من ToTTo، حافظنا على أداء مُرضٍ، بينما شهدت النماذج الرائدة السابقة، حتى مع استخدام التحويلات التوسيعية للبيانات، انخفاضًا كبيرًا في الأداء. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/luka-group/Lattice.