الاستدلال الفيزيائي باستخدام نماذج واعية بالديناميكا

إحدى الطرق الشائعة لحل مهام الاستدلال الفيزيائي هي تدريب نموذج "متعلم القيمة" على مهام نموذجية. وتشكل إحدى القيود الرئيسية لهذه الطريقة أن التعلم حول ديناميكية الكائنات يعتمد حصريًا على قيم المكافأة المخصصة للحالة النهائية لمحاكاة بيئة معينة. يهدف هذا البحث إلى التغلب على هذه القيود من خلال تعزيز قيمة المكافأة بإشارات ذاتية التدريب تتعلق بديناميكية الكائنات. وبشكل خاص، نُدرّب النموذج على تحديد درجة التشابه بين محاكاة بيئية واحدها، مع التنبؤ في الوقت نفسه بنتيجة مهمة الاستدلال. ويمكن تعريف هذا التشابه كمقياس لمسافة بين مسارات الكائنات في المحفوظين، أو يمكن تعلمه مباشرة من البكسل باستخدام صيغة تقابلية (contrastive formulation). من الناحية التجريبية، وجدنا أن هذه الطريقة تؤدي إلى تحسينات كبيرة في الأداء على معيار PHYRE الخاص باستدلالات فيزيائية (Bakhtin et al., 2019)، مما يُثبّت حالة جديدة من أفضل الأداء الممكن في هذا المجال.