نهج بسيط ولكن من الصعب التغلب عليه لتعزيز البيانات في فهم وإنشاء اللغة الطبيعية

أظهر التدريب العدواني فعاليته في تمكين التمثيلات المُتعلمة من قدرة تعميم أقوى. ومع ذلك، فإن هذا النهج يتطلب عادةً حسابات مكلفة لتحديد اتجاه الاضطرابات المُضافة. في هذه الورقة، نقدم مجموعة من استراتيجيات التوسيع البيانات البسيطة ولكن الفعالة، والتي أطلقنا عليها اسم "القطع" (cutoff)، حيث يتم حذف جزء من المعلومات داخل الجملة المدخلة لإنتاج وجهات نظر محدودة (خلال مرحلة التخصيص الدقيق). وبشكل لافت، يعتمد هذا الإجراء فقط على العينة العشوائية، وبالتالي يضيف حملًا حسابيًا ضئيلًا. بالإضافة إلى ذلك، يتم استخدام خسارة اتساق معلومات جينسون-شانون (Jensen-Shannon Divergence) لدمج هذه العينات المُوسَّعة في دالة التدريب بطريقة منهجية. لتأكيد فعالية الاستراتيجيات المقترحة، طبّقنا "القطع" على مسائل فهم اللغة الطبيعية وإنشاء النصوص. على معيار GLUE، أظهرت النتائج أن "القطع"، بالرغم من بساطتها، تحقق أداءً مماثلًا أو أفضل من عدة مناهج عدوية تنافسية. كما تم توسيع نطاق "القطع" إلى الترجمة الآلية، حيث تم ملاحظة تحسينات كبيرة في مقاييس BLEU (استنادًا إلى نموذج Transformer Base). علاوة على ذلك، تفوق "القطع" بشكل متسق على التدريب العدواني، وحقق نتائج رائدة على مجموعة بيانات IWSLT2014 الألمانية-الإنجليزية.