التعلم غير المشرف للتفاعل البدني من خلال التنبؤ بالفيديو

تُعد التنبؤ بكيفية تأثير أفعال الوكيل (الروبوت) على الأشياء في بيئته تحديًا أساسيًا للوكيل الذي يتعلم التفاعل مع العالم. تتطلب العديد من الطرق الحالية لتعلم ديناميكيات التفاعلات الفيزيائية معلومات مصنفة عن الأشياء. ومع ذلك، فإن توسيع تعلم التفاعل في العالم الحقيقي إلى مجموعة متنوعة من المشاهد والأشياء يجعل الحصول على بيانات مصنفة متزايدًا عدم العملية. لتعلم حركة الأشياء الفيزيائية دون الحاجة إلى العلامات، قمنا بتطوير نموذج تنبؤ بالفيديو مشروط بالأفعال يُمثِّل حركة البكسل بشكل صريح، وذلك من خلال التنبؤ بتوزيع لحركة البكسل من الإطارات السابقة. نظرًا لأن نموذجنا يتنبأ بالحركة بشكل صريح، فإنه جزئيًا ثابت بالنسبة لمظهر الأشياء، مما يمكنه من التعميم على أشياء غير مرئية سابقًا. لاستكشاف التنبؤ بالفيديو للوكلاء التفاعليين في العالم الحقيقي، قدمنا أيضًا مجموعة بيانات تتضمن 59,000 تفاعل روبوت يشمل حركات الدفع، بما في ذلك مجموعة اختبار تحتوي على أشياء جديدة. في هذه المجموعة من البيانات، يعادل التنبؤ الدقيق بالفيديوهات المشروطة بأفعال الروبوت المستقبليّة تعلم "تخيل بصري" لأوقات مختلفة بناءً على مسارات فعل مختلفة. أظهرت تجاربنا أن الطريقة المقترحة لدينا تنتج توقعات فيديو أكثر دقة كمياً ونوعياً عند المقارنة بالطرق السابقة.