هجمات التحايل الشاملة على تقييم التلخيص

يُعد التصنيف التلقائي للملخصات أمرًا مهمًا لأنه يوجه تطوير أدوات إنشاء الملخصات. كما أن عملية التصنيف معقدة، إذ تتضمن جوانب متعددة مثل السلاسة اللغوية، والقواعد النحوية، وحتى التبعية النصية مع النص الأصلي. ومع ذلك، لم يُنظر إلى تصنيف الملخصات كمهمة تعلم آلي لدراسة دقتها وثباتها. في هذه الدراسة، نضع التصنيف التلقائي في سياق مهام التعلم الآلي الانحداري (regression machine learning)، ونُجري هجمات تهرب (evasion attacks) لاستكشاف مدى ثبات النظام. تُقدّم أنظمة الهجوم سلسلة نصية غير ملخصة (non-summary string) لكل إدخال، وتُحقق هذه السلاسل أداءً تنافسيًا مع أفضل أدوات إنشاء الملخصات من حيث أكثر المقاييس شيوعًا: ROUGE، METEOR، وBERTScore. كما تتفوّق أنظمة الهجوم على أحدث الأساليب في إنشاء الملخصات من حيث ROUGE-1 وROUGE-L، وتُسجّل ثاني أعلى درجة في METEOR. علاوةً على ذلك، تم اكتشاف "مُدخل خبيث" (backdoor) في BERTScore: حيث يمكن لعَلامة بسيطة أن تُحقّق درجة أعلى من أي أسلوب تلقائي لإنشاء الملخصات. تُشير هجمات التهرب هذه إلى ضعف الثبات الحالي لأنظمة التصنيف على المستوى النظامي. نأمل أن يُسهم تسليطنا الضوء على هذه الهجمات المقترحة في تعزيز تطوير أنظمة تقييم الملخصات.