تبسيط النص من خلال التصنيف

أظهرت النماذج القائمة على التعديل (Edit-based) نتائج واعدة مؤخرًا في مهام متعددة لتحويل التسلسلات الأحادية اللغة. على عكس النماذج التقليدية لتحويل التسلسل إلى تسلسل (Seq2Seq)، التي تتعلم إنشاء النص من الصفر أثناء التدريب على مجموعات نصية متزامنة، أثبتت هذه الأساليب فعالية أكبر بكثير لأنها قادرة على تعلم إجراء تحويلات سريعة ودقيقة مع الاستفادة من نماذج اللغة المُدرَّبة مسبقًا القوية. مستوحاة من هذه الأفكار، نقدم TST، وهو نظام تبسيط نصي بسيط وفعال يعتمد على تصنيف التسلسلات، ويستفيد من مُشِّفرات مبنية على نموذج الترانسفورمر المُدرَّبة مسبقًا. يعتمد نظامنا على تحسينات بسيطة في البيانات وتعديلات طفيفة أثناء التدريب والاستنتاج على نظام موجود مسبقًا، مما يجعله أقل اعتمادًا على كميات كبيرة من البيانات التدريبية المتزامنة، ويمنح تحكمًا أكبر في النواتج، ويُمكّن من سرعة أكبر في الاستنتاج. وتحقيقًا لأفضل نموذج لدينا، وصلت الأداء إلى مستوى شبه مُتقدم جدًا على مجموعات البيانات القياسية المعيارية لمهام التبسيط النصي. وبما أنه نموذج غير تلقائي بالكامل (non-autoregressive)، فقد حقق سرعة استنتاج تفوق 11 مرة مقارنة بنظام التبسيط النصي المُتقدم حاليًا.