تعلم تمثيل الصور بدون إشراف باستخدام الجسيمات العميقة المخفية

نقترح تمثيلًا جديدًا للبيانات البصرية يفصل موقع الكائن عن مظهره. تُعرف طريقتنا باسم الجسيمات العميقة المخفية (Deep Latent Particles - DLP)، حيث تقوم بتفكيك الإدخال البصري إلى جسيمات ذات أبعاد منخفضة، ويتم وصف كل جسيم بموقعه المكاني وخواص المنطقة المحيطة به. لدفع عملية تعلم مثل هذه التمثيلات، نتبع نهجًا يستند إلى النموذج التراكمي المتغير (VAE) ونقدم سابقًا (prior) لمواقع الجسيمات يعتمد على بنية softmax المكانية، بالإضافة إلى تعديل في خسارة الحد الأدنى للأدلة المستوحاة من المسافة تشامفر بين الجسيمات. نثبت أن تمثيلات DLP لدينا مفيدة للمهام اللاحقة مثل اكتشاف النقاط الرئيسية بدون إشراف (unsupervised keypoint detection - KP)، والتحكم في الصور، وتوقع الفيديو للمناظر التي تتكون من عدة كائنات ديناميكية. علاوة على ذلك، نوضح أن تفسيرنا الاحتمالي للمشكلة يوفر تقديرات للتضمين بشكل طبيعي لمواقع الجسيمات، والتي يمكن استخدامها لاختيار النموذج، وغيرها من المهام. الفيديوهات والكود متاحة على الرابط التالي: https://taldatech.github.io/deep-latent-particles-web/