HyperAIHyperAI
منذ 2 أشهر

كم تكون مهام الاستدلال الشائع معقولة: دراسة حالة حول تحدي وينوغراد و SWAG

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung
كم تكون مهام الاستدلال الشائع معقولة: دراسة حالة حول تحدي وينوغراد و SWAG
الملخص

الدراسات الحديثة قد أحدثت تحسينات كبيرة في أحدث ما وصل إليه العلم في مجال معايير الاستدلال الشائع (CSR) مثل تحدي شكل وينوغراد (WSC) وSWAG. السؤال الذي نطرحه في هذا البحث هو ما إذا كانت الأداء المحسن على هذه المعايير يمثل تقدماً حقيقياً نحو أنظمة مدعومة بالاستدلال الشائع. نقوم بدراسة حالات لكلا المعيارين ونصمم بروتوكولات توضح وت限定 نتائج الدراسات السابقة من خلال تحليل التهديدات لصحة تصاميم التجارب السابقة. تتضمن بروتوكولاتنا العديد من الخصائص السائدة في معايير الاستدلال الشائع، بما في ذلك حدود الحجم، والانتظامات الهيكلية، وصعوبة الحالات المتغيرة.

كم تكون مهام الاستدلال الشائع معقولة: دراسة حالة حول تحدي وينوغراد و SWAG | أحدث الأوراق البحثية | HyperAI