لديك النص واستخدمه أيضًا! توليد نصي من بيانات عصبية من النهاية إلى النهاية مع الحفاظ على الولاء الدلالي

أصبحت توليد النصوص من البيانات العصبية من الطرف إلى الطرف (D2T) حديثًا بديلًا للاستشارات القائمة على خطوات متسلسلة. ومع ذلك، واجهت هذه الطريقة تحديات في التعميم على مجالات جديدة وإنتاج نصوص متسقة دلاليًا. في هذا العمل، نقدّم DataTuner، نظامًا عصبيًا من الطرف إلى الطرف لتوليد النصوص من البيانات، يُقلل من الافتراضات المسبقة حول تمثيل البيانات والمنطقة المستهدفة. نعتمد نهجًا مكوّنًا من مرحلتين: التوليد وإعادة الترتيب، حيث ندمج نموذجًا لغويًا مُعدّلًا دقيقًا مع فاصل تطابق دلالي. يتم تعلّم كل مكوّن من المكوّنات بشكل منطقي من الطرف إلى الطرف دون الحاجة إلى قواعد مخصصة للبيانات، أو إزالة الكيانات (entity delexicalization)، أو معالجة ما بعد التوليد. نُظهر أن DataTuner يحقق نتائج متقدمة في المقاييس الآلية على أربع مجموعات بيانات رئيسية لـ D2T (LDC2017T10، WebNLG، ViGGO، وE2E المُنظّفة)، مع لُغة تُقيّم بدرجة عالية من السلاسة من قبل المُقيّمين البشريين، وتقارب أو تتجاوز نصوص المراجع المكتوبة يدويًا. كما نُثبت أن مُقيّم التوافق الدلالي القائم على النموذج في DataTuner أداة تقييم أفضل مقارنةً بالطرق التقليدية القائمة على القواعد. ويُظهر النص المُولّد لدينا تطابقًا دلاليًا متميزًا بشكل كبير مقارنةً بأفضل النماذج الحالية في جميع مجموعات البيانات الأربع.