مشاهدة التنبؤ بين الصور: تعلم تمثيلات غير مراقبة للأشكال ثلاثية الأبعاد من خلال تعلم ذكريات الشكل العالمية لدعم التنبؤات المحلية بالوجهات

في هذا البحث، نقدم طريقة جديدة للتعلم التمثيلي غير المشرف على الأشكال ثلاثية الأبعاد، وهي تمثل تحديًا بحثيًا مهمًا حيث تتجنب الجهد اليدوي المطلوب لجمع البيانات المشرفة. يتدرب نموذجنا على هندسة شبكة عصبية تعتمد على الشبكات العصبية المتكررة (RNN) لحل مهام التنبؤ بين وجهات النظر المتعددة لكل شكل. بالنظر إلى عدة وجهات نظر قريبة من الشكل، نحدد التنبؤ بين وجهات النظر كمهمة تتضمن توقع الرؤية الوسطى بين وجهات النظر المدخلة وإعادة بناء هذه الوجهات في فضاء خصائص منخفض المستوى. الفكرة الأساسية لنهجنا هي تنفيذ تمثيل الشكل كذاكرة عالمية خاصة بالشكل يتم مشاركتها بين جميع التنبؤات المحلية بين وجهات النظر لكل شكل. بشكل حدسي، تمكن هذه الذاكرة النظام من جمع المعلومات التي تكون مفيدة لتحسين حل مهام التنبؤ بين وجهات النظر لكل شكل واستخدام الذاكرة كتمثيل للشكل مستقل عن وجهة النظر. يحقق نهجنا أفضل النتائج باستخدام تركيبة من الخسائر L_2 والخسائر المعادية (adversarial losses) لمهمة التنبؤ بين وجهات النظر. نوضح أن VIP-GAN يتفوق على أحدث الأساليب في التعلم التمثيلي غير المشرف للأشكال ثلاثية الأبعاد في ثلاثة مقاييس كبيرة للأداء على بيانات الأشكال ثلاثية الأبعاد.