PIQA: التفكير في الحس السليم الفيزيائي بلغة الطبيعية

لتطبيق الظلال على العين بدون فرشاة، هل يجب استخدام قطعة قطنية أو عود أسنان؟ الأسئلة التي تتطلب هذا النوع من الحس السليم المادي تشكل تحديًا لأنظمة فهم اللغة الطبيعية اليوم. بينما أحرزت النماذج المدربة مسبقًا الحديثة (مثل BERT) تقدمًا في الإجابة على الأسئلة في مجالات أكثر مجردة - مثل المقالات الإخبارية والمدخلات الموسوعية، حيث يكون النص وافرًا - فإن النص في المجالات المادية يكون محدودًا بطبيعته بسبب التحيز في التقرير. هل يمكن لأنظمة الذكاء الاصطناعي أن تتعلم الإجابة على الأسئلة المتعلقة بالحس السليم المادي بشكل موثوق دون تجربة العالم المادي؟ في هذه الورقة البحثية، نقدم مهمة الاستدلال على الحس السليم المادي ومجموعة بيانات معيارية متناظرة لها وهي مجموعة بيانات التفاعل المادي: الإجابة على الأسئلة أو PIQA. رغم أن البشر يجدون هذه المجموعة من البيانات سهلة (بمعدل دقة 95%)، إلا أن النماذج الكبيرة التي تم تدريبها مسبقًا تعاني صعوبة (بمعدل دقة 77%). نوفر تحليلًا حول أبعاد المعرفة التي تنقص النماذج الحالية، مما يوفر فرصًا كبيرة للبحث المستقبلي.