HyperAIHyperAI
منذ 16 أيام

GLUE العدوية: معيار متعدد المهام لتقييم المقاومة للنماذج اللغوية

Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li
GLUE العدوية: معيار متعدد المهام لتقييم المقاومة للنماذج اللغوية
الملخص

نجحت النماذج الكبيرة المُدرَّبة مسبقًا للغة في تحقيق تقدم كبير في مجموعة واسعة من مهام فهم اللغة الطبيعية (NLU)، بل وتخطت أداء البشر في بعضها. ومع ذلك، أظهرت دراسات حديثة أن مقاومة هذه النماذج قد تتأثر بوجود أمثلة عدائية نصية مُصممة بدقة. وعلى الرغم من اقتراح عدة مجموعات بيانات فردية لتقييم مقاومة النماذج، إلا أن هناك حاجة ماسة إلى معيار منهجي وشامل. في هذا البحث، نقدم "GLUE العدائية" (AdvGLUE)، وهو معيار متعدد المهام جديد يهدف إلى تقييم التهديدات التي تتعرض لها النماذج الحديثة الكبيرة للغة تحت أنواع مختلفة من الهجمات العدائية، بطريقة كمية وشاملة. وبشكل خاص، قمنا بتطبيق منهجيات عدائية نصية منهجية تبلغ 14 طريقة على مهام GLUE لبناء معيار AdvGLUE، الذي تم التحقق منه لاحقًا بواسطة البشر لضمان تسميات موثوقة. وتلخص نتائجنا على النحو التالي: (i) إن معظم خوارزميات الهجوم العدائي الحالية عرضة لإنتاج أمثلة عدائية غير صالحة أو غامضة، حيث يُغيّر ما يقارب 90% منها المعنى الأصلي للنص أو يُربك مُصنفي البشر. ولهذا السبب، قمنا بعملية تصفية دقيقة لبناء معيار عالي الجودة. (ii) أظهرت جميع النماذج اللغوية والأساليب المُستخدمة في التدريب المقاوم التي اختبرناها أداءً ضعيفًا على معيار AdvGLUE، حيث تراجعت نتائجها بشكل كبير مقارنة بدقة الأداء الطبيعي. ونأمل أن يُحفّز هذا العمل على تطوير هجمات عدائية جديدة أكثر خفة واحتفاظًا بالمعنى، فضلاً عن تطوير نماذج لغوية مقاومة أكثر أمام الهجمات العدائية المعقدة. يمكن الوصول إلى معيار AdvGLUE عبر الرابط: https://adversarialglue.github.io.

GLUE العدوية: معيار متعدد المهام لتقييم المقاومة للنماذج اللغوية | أحدث الأوراق البحثية | HyperAI