تنمية غابة القصص عبر الإنترنت من الأخبار العاجلة الضخمة

نقدم تجربتنا في تنفيذ نظام تنظيم محتوى الأخبار في شركة تينسنت، والذي يكتشف الأحداث من تدفقات ضخمة من الأخبار العاجلة ويطور بنية قصص الأخبار بطريقة عبر الإنترنت. يتطلب نظامنا العملي متطلبات خاصة مقارنة بدراسات سابقة حول اكتشاف المواضيع وتتبعها (TDT) وإنشاء خط زمني أو رسم بياني للأحداث، حيث أننا 1) نحتاج إلى استخراج الأحداث المميزة بدقة وسرعة من تدفقات ضخمة من الوثائق النصية الطويلة التي تغطي مواضيع متنوعة وتتضمن معلومات شديدة التكرار، و2) يجب علينا تطوير بنية قصص الأحداث بطريقة عبر الإنترنت دون إعادة هيكلة القصص السابقة بشكل متكرر لضمان تجربة مشاهدة مستقرة للمستخدم. لحل هذه التحديات، نقترح "غابة القصص" (Story Forest)، وهي مجموعة من الخطط عبر الإنترنت التي تقوم بتجميع الوثائق المتداولة تلقائيًا في أحداث، بينما تتصل الأحداث ذات الصلة في أشجار نامية لتسرد القصص المتغيرة. أجرينا تقييمًا شاملًا على أساس 60 جيجابايت من بيانات الأخبار الصينية الحقيقية، رغم أن أفكارنا ليست معتمدة على اللغة ويمكن توسيعها بسهولة إلى لغات أخرى من خلال دراسات أولية مفصلة للتجربة المستخدم. بينت النتائج قدرة "غابة القصص" (Story Forest) الفائقة على تحديد الأحداث بدقة وتنظيم النص الإخباري في بنية منطقية جاذبة للقراء البشريين بالمقارنة مع العديد من الإطارات الخوارزمية الموجودة.