شبكات التباين الزمني: التعلم الذاتي من الفيديو

نقترح نهجًا ذاتي الإشراف لتعلم التمثيلات والسلوكيات الروبوتية تمامًا من مقاطع الفيديو غير المصنفة المسجلة من عدة زوايا، وندرس كيفية استخدام هذا التمثيل في حالتين للتقليد الروبوتي: تقليد تفاعلات الأشياء من مقاطع فيديو للبشر، وتقليد وضعيات البشر. يتطلب تقليد السلوك البشري تمثيلًا ثابتًا أمام الزوايا المختلفة يلتقط العلاقات بين المنفذين النهائيين (الأيدي أو ماسكات الروبوت) والبيئة، خصائص الأشياء، ووضعية الجسم. نقوم بتدريب تمثيلاتنا باستخدام دالة خسارة تعلم المقاييس، حيث يتم جذب العديد من الزوايا المتزامنة لنفس الملاحظة في فضاء التضمين، بينما يتم طردها بعيدًا عن الجيران الزمنيين الذين غالبًا ما يكونون مشابهين بصريًا ولكن مختلفين وظيفيًا. بعبارة أخرى، يتعلم النموذج في الوقت نفسه التعرف على ما هو مشترك بين الصور المختلفة المظهر، وما هو مختلف بين الصور المشابهة المظهر. يسبب هذا الإشارة لأن نموذجنا يكتشف الخصائص التي لا تتغير عبر الزاوية ولكن تتغير عبر الزمن، مع تجاهل المتغيرات المزعجة مثل الاخفاء الجزئي، ضبابية الحركة، الإضاءة والخلفية. نوضح أن هذا التمثيل يمكن استخدامه بواسطة روبوت لتقليد وضعيات البشر مباشرة دون وجود مطابقة صريحة، وأنه يمكن استخدامه كدالة مكافأة ضمن خوارزمية تعلم التعزيز. بينما يتم تعلم التمثيلات من مجموعة غير مصنفة من مقاطع الفيديو المرتبطة بالمهمة، فإن السلوكيات الروبوتية مثل صب السوائل يتم تعلمها بمراقبة عرض واحد بالشخص الثالث قام به إنسان. تمكن دوال المكافآت المستحصل عليها بتتبع العروض البشرية تحت التمثيلات المستلمة من تحقيق تعلم تعزيز فعال يمكن تنفيذه بشكل عملي للأنظمة الروبوتية الحقيقية. يمكن الاطلاع على نتائج الفيديو والكود المصدر المفتوح ومجموعة البيانات على الرابط التالي: https://sermanet.github.io/imitate