تعلم التفسير: الاستدلال متعدد الوسائط عبر سلاسل الفكر للإجابة على أسئلة العلوم

عند الإجابة على سؤال، يستخدم البشر المعلومات المتاحة عبر مختلف الوسائط لتكوين سلسلة فكرية متسقة وكاملة (CoT). هذا العملية تكون عادةً صندوقًا أسود في حالة نماذج التعلم العميق مثل النماذج اللغوية الكبيرة. مؤخرًا، تم استخدام مقاييس الأسئلة العلمية لتشخيص قدرة النظام الذكاء الاصطناعي على الاستدلال متعدد الخطوات وقابلية تفسيره. ومع ذلك، فإن المجموعات البيانات الحالية لا توفر شروحًا للإجابات، أو تكون مقيدة بالوسائط النصية فقط، والأحجام الصغيرة، وتعدد المجالات المحدود. لتحقيق هذا الغرض، نقدم Science Question Answering (ScienceQA)، وهو مقاس جديد يتألف من حوالي 21 ألف سؤال اختياري متعدد الوسائط مع مجموعة متنوعة من المواضيع العلمية وشروح إجاباتها مع المحاضرات والتفاسير المقابلة. لقد صممنا أيضًا نماذج لغوية لتتعلم توليد المحاضرات والشروح كسلسلة فكرية (CoT) لتقليد عملية الاستدلال متعدد الخطوات عند الإجابة على أسئلة ScienceQA. يظهر ScienceQA فائدة السلسلة الفكرية في النماذج اللغوية، حيث تحسن السلسلة الفكرية أداء الإجابة على الأسئلة بنسبة 1.20% في GPT-3 ذو الطلقات القليلة وبنسبة 3.99% في UnifiedQA المُعدَّل بشكل دقيق. كما نستكشف الحد الأعلى لنماذج الاستفادة من الشروح بتقديمها في المدخل؛ نلاحظ أن ذلك يحسن أداء GPT-3 ذو الطلقات القليلة بنسبة 18.96%. تحليلنا يظهر أيضًا أن النماذج اللغوية، مثل البشر، تستفيد من الشروح للتعلم من بيانات أقل وتحقيق نفس الأداء باستخدام فقط 40% من البيانات. يمكن الوصول إلى البيانات والكود عبر الرابط: https://scienceqa.github.io.