HyperAIHyperAI
منذ 2 أشهر

مجموعة كبيرة ذات تسمية ذاتية للسخرية

Mikhail Khodak; Nikunj Saunshi; Kiran Vodrahalli
مجموعة كبيرة ذات تسمية ذاتية للسخرية
الملخص

نقدم مكتبة Reddit ذات التسمية الذاتية (SARC)، وهي مجموعة بيانات كبيرة تهدف إلى البحث في السخرية وتدريب وتقييم الأنظمة الخاصة بكشف السخرية. تحتوي هذه المكتبة على 1.3 مليون تصريح ساخر، وهو عدد يفوق عشرة أضعاف أي مجموعة بيانات سابقة، بالإضافة إلى الكثير من التصريحات غير الساخرة، مما يتيح التعلم في بيئات تسمية متوازنة وغير متوازنة. يتميز كل تصريح بأنه مُسَمًّى ذاتيًا -- حيث يقوم الكاتب بتسميته بالسخرية وليس مُسَمٍّ مستقل -- ويتم تقديمه مع سياق المستخدم والموضوع والمحادثة. قمنا بتقييم الدقة لهذه المكتبة، وإنشاء مقاييس مرجعية لكشف السkehrة، وتقييم الطرق الأساسية.

مجموعة كبيرة ذات تسمية ذاتية للسخرية | أحدث الأوراق البحثية | HyperAI