HyperAIHyperAI
منذ 2 أشهر

CODAH: مجموعة أسئلة وأجوبة مكتوبة بشكل معادٍ للاستخدام في المنطق الشائع

Michael Chen; Mike D'Arcy; Alisa Liu; Jared Fernandez; Doug Downey
CODAH: مجموعة أسئلة وأجوبة مكتوبة بشكل معادٍ للاستخدام في المنطق الشائع
الملخص

الاستدلال الشائع هو قدرة حاسمة في مجال الذكاء الاصطناعي، لكن من الصعب بناء مجموعات بيانات صعبة تختبر هذا الاستدلال. أنظمة الإجابة على الأسئلة العصبية الحديثة، التي تعتمد على نماذج لغوية كبيرة تم تدريبها مسبقًا، قد حققت بالفعل أداءً يقارب المستوى البشري في مقاييس المعرفة الشائعة. ومع ذلك، فإن هذه النظم لا تمتلك مستوى البشر في الاستدلال الشائع، ولكنها قادرة على استغلال نقاط ضعف مجموعات البيانات لتحقيق درجات على مستوى البشر.نقدم مجموعة البيانات CODAH، وهي مجموعة بيانات تقييمية تم بناؤها بشكل معادٍ لاختبار الاستدلال الشائع. تمثل CODAH امتدادًا صعبًا لمجموعة البيانات SWAG التي تم اقتراحها مؤخرًا، والتي تستخدم أسئلة إكمال الجمل لاختبار المعرفة الشائعة باستخدام سياقات مشاهدة في الفيديو. لإنتاج مجموعة بيانات أكثر صعوبة، نقدم إجراءً جديدًا للحصول على الأسئلة حيث يقوم العمال بتأليف أسئلة مصممة لتستهدف نقاط ضعف أنظمة الإجابة على الأسئلة العصبية الأكثر تقدمًا. يتم مكافأة العمال على تقديم أسئلة لا يستطيع النموذج الإجابة عليها بشكل صحيح قبل وبعد التحسين الدقيق (في التحقق المتقاطع). لقد أنشأنا 2,800 سؤال عبر هذا الإجراء وقمنا بتقييم أداء العديد من أنظمة الإجابة على الأسئلة الأكثر تقدمًا في مجموعتنا البيانات. لاحظنا فارقًا كبيرًا بين الأداء البشري، الذي بلغ 95.3٪، والأداء الأفضل للنموذج الأساسي بمستوى دقة 67.5٪ بواسطة نموذج BERT-Large.

CODAH: مجموعة أسئلة وأجوبة مكتوبة بشكل معادٍ للاستخدام في المنطق الشائع | أحدث الأوراق البحثية | HyperAI