منذ 2 أشهر
مجموعة كبيرة ذات تسمية ذاتية للسخرية
Mikhail Khodak; Nikunj Saunshi; Kiran Vodrahalli

الملخص
نقدم مكتبة Reddit ذات التسمية الذاتية (SARC)، وهي مجموعة بيانات كبيرة تهدف إلى البحث في السخرية وتدريب وتقييم الأنظمة الخاصة بكشف السخرية. تحتوي هذه المكتبة على 1.3 مليون تصريح ساخر، وهو عدد يفوق عشرة أضعاف أي مجموعة بيانات سابقة، بالإضافة إلى الكثير من التصريحات غير الساخرة، مما يتيح التعلم في بيئات تسمية متوازنة وغير متوازنة. يتميز كل تصريح بأنه مُسَمًّى ذاتيًا -- حيث يقوم الكاتب بتسميته بالسخرية وليس مُسَمٍّ مستقل -- ويتم تقديمه مع سياق المستخدم والموضوع والمحادثة. قمنا بتقييم الدقة لهذه المكتبة، وإنشاء مقاييس مرجعية لكشف السkehrة، وتقييم الطرق الأساسية.