SWAG: مجموعة بيانات كبيرة معاكسة للاستدلال الشائع المتأصل

بالنظر إلى وصف جزئي مثل "فتحت غطاء محرك السيارة"، يمكن للبشر أن يستنتجو حول الموقف ويتنبأوا بما قد يحدث بعد ذلك ("ثم، فحصت المحرك"). في هذا البحث، نقدم مهمة الاستدلال الشائع المتأصل، والتي توحّد بين الاستدلال اللغوي الطبيعي والاستدلال الشائع.نقدّم مجموعة بيانات جديدة تُسمى SWAG تحتوي على 113 ألف سؤال اختيار من متعدد يتعلق بمتغيرات متنوعة من المواقف المتأصلة. لمعالجة التحديات المتكررة المتعلقة بالآثار الفنية والتحيزات البشرية التي تم العثور عليها في العديد من المجموعات البيانات الموجودة حاليًا، نقترح عملية التصفية المعادية (Adversarial Filtering - AF)، وهي إجراء جديد يبني مجموعة متنوعة من تصنيفات الأسلوب بشكل متكرر ويستخدمها لتصفية البيانات. لتعويض التصفية المعادية العنيفة، نستخدم نماذج اللغة الأكثر تقدمًا لتوليد عينات كبيرة ومتنوعة من السيناريوهات البديلة المحتملة. تظهر النتائج التجريبية أن البشر يمكنهم حل المشكلات الاستدلالية الناتجة بدقة عالية (88%)، بينما تجد النماذج المختلفة والمتنافسة صعوبة في التعامل مع مهمتنا. نوفر تحليلًا شاملًا يشير إلى فرص كبيرة للبحث المستقبلي.