HyperAIHyperAI

Command Palette

Search for a command to run...

GLUE العدوية: معيار متعدد المهام لتقييم المقاومة للنماذج اللغوية

Boxin Wang Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah Bo Li

الملخص

نجحت النماذج الكبيرة المُدرَّبة مسبقًا للغة في تحقيق تقدم كبير في مجموعة واسعة من مهام فهم اللغة الطبيعية (NLU)، بل وتخطت أداء البشر في بعضها. ومع ذلك، أظهرت دراسات حديثة أن مقاومة هذه النماذج قد تتأثر بوجود أمثلة عدائية نصية مُصممة بدقة. وعلى الرغم من اقتراح عدة مجموعات بيانات فردية لتقييم مقاومة النماذج، إلا أن هناك حاجة ماسة إلى معيار منهجي وشامل. في هذا البحث، نقدم "GLUE العدائية" (AdvGLUE)، وهو معيار متعدد المهام جديد يهدف إلى تقييم التهديدات التي تتعرض لها النماذج الحديثة الكبيرة للغة تحت أنواع مختلفة من الهجمات العدائية، بطريقة كمية وشاملة. وبشكل خاص، قمنا بتطبيق منهجيات عدائية نصية منهجية تبلغ 14 طريقة على مهام GLUE لبناء معيار AdvGLUE، الذي تم التحقق منه لاحقًا بواسطة البشر لضمان تسميات موثوقة. وتلخص نتائجنا على النحو التالي: (i) إن معظم خوارزميات الهجوم العدائي الحالية عرضة لإنتاج أمثلة عدائية غير صالحة أو غامضة، حيث يُغيّر ما يقارب 90% منها المعنى الأصلي للنص أو يُربك مُصنفي البشر. ولهذا السبب، قمنا بعملية تصفية دقيقة لبناء معيار عالي الجودة. (ii) أظهرت جميع النماذج اللغوية والأساليب المُستخدمة في التدريب المقاوم التي اختبرناها أداءً ضعيفًا على معيار AdvGLUE، حيث تراجعت نتائجها بشكل كبير مقارنة بدقة الأداء الطبيعي. ونأمل أن يُحفّز هذا العمل على تطوير هجمات عدائية جديدة أكثر خفة واحتفاظًا بالمعنى، فضلاً عن تطوير نماذج لغوية مقاومة أكثر أمام الهجمات العدائية المعقدة. يمكن الوصول إلى معيار AdvGLUE عبر الرابط: https://adversarialglue.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp