تلخيص استنتاجي للتعليمات الشفهية والكتابية باستخدام BERT

تلخيص الكلام يُعدّ مشكلة صعبة نظرًا للطابع التلقائي للتدفق، والانقطاعات اللغوية، ومشاكل أخرى لا تُواجه عادة في النصوص المكتوبة. تقدم دراستنا أول تطبيق لنموذج BERTSum على اللغة التفاعلية. نُنتج ملخصات استخلاصية لفيديوهات تعليمية مُصوَّرة تتضمن مواضيع متنوعة جدًا، من الحدائق والطبخ إلى تهيئة البرمجيات والرياضة. ولتحسين ثروة المفردات، نستخدم التعلم الناقل (transfer learning) ونُدرّب النموذج مسبقًا على مجموعة من البيانات الكبيرة المتنوعة المجالات، سواء باللغة المكتوبة أو المنطوقة. كما نُجري معالجة مسبقة للنصوص لاستعادة تجزئة الجملة وعلامات الترقيم في الناتج الناتج عن نظام التعرف على الكلام (ASR). وتُقيَّم النتائج باستخدام مقاييس ROUGE وContent-F1 على مجموعتي بيانات How2 وWikiHow. كما نستخدم مُقيّمين بشريين لتقديم تقييم لعدد من الملخصات المختارة عشوائيًا من مجموعة بيانات تم جمعها من HowTo100M وYouTube. وباستنادًا إلى تقييم مُخفى (blind evaluation)، نحقق مستوى من السلاسة اللغوية والفعالية يقترب من مستوى الملخصات التي يُعدّها مُنشئو المحتوى البشريون. وتفوق النموذج أحدث النماذج المُتقدمة (SOTA) عند تطبيقه على مقالات WikiHow التي تختلف كثيرًا من حيث الأسلوب والمواضيع، مع الحفاظ على أداء ثابت دون انخفاض في الأداء على مجموعة بيانات CNN/DailyMail القياسية. وبسبب التعميم العالي للنموذج عبر أنماط مختلفة ومواضيع متنوعة، يمتلك إمكانات كبيرة لتحسين إمكانية الوصول إلى المحتوى على الإنترنت وسهولة العثور عليه. ونُتخيّل دمج هذا النموذج كميزة في المساعدات الافتراضية الذكية، مما يمكّنها من تلخيص المحتوى التعليمي المكتوب والمنطوق عند الطلب.