HyperAIHyperAI
منذ 12 أيام

TNT-NLG، النظام 1: استخدام توليد لغة طبيعية إحصائي لتوسيع كميات البيانات المستمدة من الجمهور بشكل كبير لدعم التوليد العصبي

{Marilyn A. Walker, Stephanie Lukin, Shubhangi Tandon, Shereen Oraby, Lena Reed}
الملخص

منذ التطبيق الناجح لتعلم التسلسل إلى التسلسل في أنظمة الترجمة الآلية العصبية (Sutskever et al., 2014)، ازداد الاهتمام بتطبيقاته في مجالات توليد اللغة الأخرى. وفي مجال توليد اللغة الطبيعية (NLG)، شهدت النماذج العصبية النهائية (E2E) اهتمامًا كبيرًا، حيث تتعلم هذه النماذج وتولّد تعبيرات جملة باللغة الطبيعية في خطوة واحدة. في هذه الورقة، نقدّم نظام TNT-NLG الإصدار 1، أول مشاركة لنا في تحدي توليد اللغة الطبيعية النهائية (E2E NLG)، حيث نُولّد تعبيرات باللغة الطبيعية (NL) من تمثيلات المعنى (MRs) في مجال المطاعم، وذلك من خلال توسيع حجم مجموعة التدريب بشكل كبير. قمنا بتطوير نموذجين لهذا النظام، مستندين إلى النموذج الأساسي المفتوح المصدر لدوسك (Dusek et al., 2016a) والنظام العصبي المُوجّه بالسياق لتحرير اللغة. بدءًا من أزواج تمثيلات المعنى واللغة الطبيعية المتوفرة في مجموعة بيانات تحدي التوليد E2E، قمنا بتوسيع حجم مجموعة التدريب باستخدام أداة PERSONAGE (Mairesse and Walker, 2010)، وهي مولّد إحصائي قادر على إنتاج تعبيرات متنوعة من تمثيلات المعنى، واستخدمنا البيانات الموسعة كمدخل سياقي في نماذجنا. ونقدّم نتائج تقييم باستخدام مقاييس تقييم تلقائية وبشرية، ونُشرّح اتجاهات العمل المستقبلي.

TNT-NLG، النظام 1: استخدام توليد لغة طبيعية إحصائي لتوسيع كميات البيانات المستمدة من الجمهور بشكل كبير لدعم التوليد العصبي | أحدث الأوراق البحثية | HyperAI