TVStoryGen: مجموعة بيانات لإنشاء قصص مع وصف الشخصيات

نُقدِّمُ TVStoryGen، وهي مجموعة بيانات لتأليف القصص تتطلب توليد ملخصات مفصلة لحلقات مسلسل تلفزيوني من ملخص موجز وعدد من الوثائق التي تصف الشخصيات المشاركة. على عكس مجموعات البيانات الأخرى الخاصة بتأليف القصص، تحتوي TVStoryGen على قصص كُتبت بواسطة كُتّاب سيناريو محترفين، وتمتاز بتفاعلات معقدة بين عدد من الشخصيات. يتطلب توليد القصص في TVStoryGen استخلاص المعلومات ذات الصلة من الوثائق الطويلة المتعلقة بالشخصيات بناءً على الملخص الموجز. بالإضافة إلى ذلك، نقترح تدريب نماذج عكسية (reverse models) على مجموعتنا لتقدير مدى الالتزام بالواقعية (faithfulness) في القصص المولدة. تم إنشاء TVStoryGen من مواقع إلكترونية يُسهم فيها المعجبون، مما سمح لنا بجمع 26 ألف ملخص لحلقات بمتوسط 1868.7 رمزًا لكل ملخص. من الناحية التجريبية، اعتمدنا نهجًا هرميًا لتأليف القصص ووجدنا أن النموذج العصبي الذي يستخدم محددات محتوى "أُوراكل" (oracle content selectors) لوصف الشخصيات يحقق أفضل أداء من حيث المقاييس الآلية، مما يُظهر الإمكانات الكامنة في مجموعتنا لتشجيع الأبحاث المستقبلية في مجال تأليف القصص بشروط محددة. كما أظهر التحليل النوعي أن أفضل نموذج أداءً قد يُولّد محتوىً غير متماشٍ أحيانًا مع الملخصات القصيرة، مما يُشير إلى اتجاهات واعدة للعمل المستقبلي.