HyperAIHyperAI

Command Palette

Search for a command to run...

CODAH: مجموعة أسئلة وأجوبة مكتوبة بشكل معادٍ للاستخدام في المنطق الشائع

Michael Chen Mike D’Arcy Alisa Liu Jared Fernandez Doug Downey

الملخص

الاستدلال الشائع هو قدرة حاسمة في مجال الذكاء الاصطناعي، لكن من الصعب بناء مجموعات بيانات صعبة تختبر هذا الاستدلال. أنظمة الإجابة على الأسئلة العصبية الحديثة، التي تعتمد على نماذج لغوية كبيرة تم تدريبها مسبقًا، قد حققت بالفعل أداءً يقارب المستوى البشري في مقاييس المعرفة الشائعة. ومع ذلك، فإن هذه النظم لا تمتلك مستوى البشر في الاستدلال الشائع، ولكنها قادرة على استغلال نقاط ضعف مجموعات البيانات لتحقيق درجات على مستوى البشر.نقدم مجموعة البيانات CODAH، وهي مجموعة بيانات تقييمية تم بناؤها بشكل معادٍ لاختبار الاستدلال الشائع. تمثل CODAH امتدادًا صعبًا لمجموعة البيانات SWAG التي تم اقتراحها مؤخرًا، والتي تستخدم أسئلة إكمال الجمل لاختبار المعرفة الشائعة باستخدام سياقات مشاهدة في الفيديو. لإنتاج مجموعة بيانات أكثر صعوبة، نقدم إجراءً جديدًا للحصول على الأسئلة حيث يقوم العمال بتأليف أسئلة مصممة لتستهدف نقاط ضعف أنظمة الإجابة على الأسئلة العصبية الأكثر تقدمًا. يتم مكافأة العمال على تقديم أسئلة لا يستطيع النموذج الإجابة عليها بشكل صحيح قبل وبعد التحسين الدقيق (في التحقق المتقاطع). لقد أنشأنا 2,800 سؤال عبر هذا الإجراء وقمنا بتقييم أداء العديد من أنظمة الإجابة على الأسئلة الأكثر تقدمًا في مجموعتنا البيانات. لاحظنا فارقًا كبيرًا بين الأداء البشري، الذي بلغ 95.3٪، والأداء الأفضل للنموذج الأساسي بمستوى دقة 67.5٪ بواسطة نموذج BERT-Large.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp