UTNLP في مهمة SemEval-2022 المهمة 6: تحليل مقارن للكشف عن السخرية باستخدام تعزيز البيانات القائم على النماذج التوليدية والتعديلية

السخرية هي مصطلح يشير إلى استخدام الكلمات للسخرية أو الإزعاج أو التسلية مع شخص ما. وغالبًا ما تُستخدم على وسائل التواصل الاجتماعي. ويُعدّ الطابع المجازي والإبداعي للسخرية عقبة كبيرة أمام أنظمة تحليل المشاعر المستندة إلى الحوسبة العاطفية. تُقدَّم في هذا البحث المنهجية والنتائج التي حققتها فريقنا UTNLP في مهمة سيميفال-2022 المشتركة رقم 6 المتعلقة باكتشاف السخرية. حيث قمنا باختبار نماذج مختلفة وطرق تعزيز البيانات، ونُشرت النتائج التي أظهرت أفضل النماذج أداءً. بدأت التجارب بأساليب التعلم الآلي التقليدية، ثم انتقلت إلى النماذج القائمة على المحولات (Transformers) والنموذج القائم على الانتباه (Attention-based). استخدمنا تعزيز البيانات باستخدام تقنيات التحوّل في البيانات (Data Mutation) وإنشاء بيانات جديدة (Data Generation). وحقق أفضل نموذج لدينا باستخدام RoBERTa مع تعزيز البيانات القائم على التحوّل، نتيجة F1-sarcastic قدرها 0.38 خلال مرحلة التقييم في المسابقة. وبعد انتهاء المسابقة، قمنا بتصحيح أوجه القصور في النموذج، وتمكّنا من تحقيق نتيجة F1-sarcastic بلغت 0.414.