CommonGen: تحدي توليد نص مُقيّد للتفكير السببي التلقائي التوليدي

في الآونة الأخيرة، أظهرت النماذج الكبيرة المُدرَّبة مسبقًا للغة أداءً مُبهرًا على عدة مجموعات بيانات معيارية للتفكير بالمنطق العام. ومع ذلك، لا يزال بناء آلات قادرة على التفكير بالمنطق العام لتكوين جمل واقعية ومقنعة أمرًا صعبًا. في هذه الورقة، نقدّم مهمة توليد نصوص مُحدَّدة تُسمى CommonGen، إلى جانب مجموعة بيانات معيارية، بهدف اختبار الآلات بشكل صريح على قدرتها في التفكير بالمنطق العام أثناء التوليد. المطلوب هو توليد جملة متماسكة تصف سيناريوًا يوميًا باستخدام مجموعة من المفاهيم الشائعة (مثل: {كلب، فريسبي، التقاط، رمي})، مثال على ذلك: "يُلقي رجل بفريسبي ويُمسك به كلبه". تُعد مهمة CommonGen صعبة لأنها تتطلب بشكل جوهري: 1) التفكير في العلاقات باستخدام معرفة منطقية عامة خلفية، و2) القدرة على التعميم التكويني للتعامل مع مجموعات مفاهيم لم تُرَ من قبل. تتكوّن مجموعتنا من البيانات، التي تم بناؤها من خلال دمج مصادر مُجمعة من مُستخدمين عبر الإنترنت ومجموعات نصوص موجودة مسبقًا، من 79 ألف وصف منطقي عام متعلق بـ 35 ألف مجموعة فريدة من المفاهيم. تُظهر التجارب وجود فجوة كبيرة بين أداء أحدث نماذج توليد النصوص (مثل T5) وأداء البشر. علاوةً على ذلك، نُظهر أن القدرة المُكتسبة على التفكير بالمنطق العام أثناء التوليد يمكن نقلها لتحسين المهام التالية، مثل CommonsenseQA، من خلال توليد سياقات إضافية.