KGPT: التدريب المبني على المعرفة لتوليد النص من البيانات

لقد جذبت توليد النص من البيانات اهتمامًا كبيرًا مؤخرًا بسبب تطبيقاتها الواسعة. وأظهرت الأساليب الحالية أداءً مثيرًا للإعجاب في مجموعة متنوعة من المهام. ومع ذلك، فإنها تعتمد على كمية كبيرة من البيانات المصنفة لكل مهمة، وهو ما يعتبر باهظ الثمن للحصول عليه وبالتالي يحد من تطبيقها على مهام ونماذج جديدة. في هذا البحث، نقترح الاستفادة من التدريب الأولي والتعلم النقل لحل هذه المشكلة. نقترح نموذج التدريب الأولي المستند إلى المعرفة (Knowledge-Grounded Pre-Training - KPGT)، الذي يتكون من جزأين: 1) نموذج توليد عام مستند إلى المعرفة لإنتاج نص غني بالمعرفة. 2) نظام تدريب أولي على مكتبة ضخمة من النصوص المستندة إلى المعرفة التي تم جمعها من الإنترنت. يمكن ضبط النموذج المُدرب أوليًا لتحسين أدائه في مجموعة متنوعة من مهام توليد النص من البيانات لإنتاج نص خاص بالمهام. قمنا بتقييم فعاليته باستخدام ثلاثة إعدادات، وهي الإشراف الكامل (fully-supervised)، وعدم وجود أمثلة (zero-shot)، وإشراف قليل (few-shot). تحت الإعداد الإشرافي الكامل، يمكن لنموذجنا تحقيق مكاسب بارزة فوق القواعد الأساسية المعروفة. تحت الإعداد بدون أمثلة، حقق نموذجنا أكثر من 30 ROUGE-L في WebNLG دون رؤية أي أمثلة بينما فشلت جميع القواعد الأساسية الأخرى. تحت الإعداد ذو الإشراف القليل، يحتاج نموذجنا فقط إلى حوالي خمس الكمية نفسها تقريبًا من الأمثلة المصنفة لتحقيق نفس مستوى الأداء مثل نماذج القاعدة الأساسية. هذه التجارب تثبت بشكل مستمر القدرة العامة القوية للإطار المقترح لدينا https://github.com/wenhuchen/KGPT.