PeCLR: التقدير التلقائي لوضع اليد ثلاثي الأبعاد من صور RGB أحادية عبر التعلم التبايني التكافؤي

مُشجّعًا بفضل النجاح الذي حققته التعلّم التمييزي في مهام تصنيف الصور، نقترح طريقة جديدة للتعلّم التلقائي للوظيفة الانحدارية الهيكلية في مسألة تقدير وضع اليد ثلاثية الأبعاد. يعتمد التعلّم التمييزي على استخدام البيانات غير المُعلّمة لغرض تعلّم التمثيل من خلال صيغة دالة خسارة تُشجّع على أن تكون التمثيلات المُتعلّمة غير حساسة تجاه أي تحويلات للصورة. وفي حالة تقدير وضع اليد ثلاثية الأبعاد، يُعتبر أيضًا مرغوبًا أن تكون التمثيلات غير حساسة تجاه التحويلات في المظهر، مثل التبديل اللوني. لكن المهمة تتطلب تمايزًا (equivariance) تجاه التحويلات التآلفية، مثل الدوران والانسحاب. لمعالجة هذه المشكلة، نقترح هدفًا تمايزيًا (equivariant contrastive objective) ونُظهر فعاليته في سياق تقدير وضع اليد ثلاثية الأبعاد. وقد قمنا بدراسة تجريبية لتأثير هدفي التمييز الثابت (invariant) والتمايز (equivariant)، ونُظهر أن تعلّم الميزات التمايزية يؤدي إلى تمثيلات أفضل لمهام تقدير وضع اليد ثلاثية الأبعاد. علاوةً على ذلك، نُظهر أن الشبكات العميقة من نوع ResNets القياسية، عند تدريبها على بيانات غير مُعلّمة إضافية وبعمق كافٍ، تحقق تحسنًا يصل إلى 14.5% في معيار PA-EPE على مجموعة بيانات FreiHAND، مما يُحقّق أفضل أداء مُسجّل حتى الآن دون الحاجة إلى هياكل مخصصة أو مُصمّمة خصيصًا للمهمة. يمكن الوصول إلى الكود والنموذج عبر الرابط: https://ait.ethz.ch/projects/2021/PeCLR/