GENESIS-V2: استنتاج تمثيلات الأشياء غير المرتبة دون تكرار التحسين

التقدم في تعلم تمثيل الأشياء دون إشراف قد أدى إلى تطوير مجموعة واسعة من الطرق لتقسيم الصور دون إشراف وإنشاء مشاهد مركزة حول الأشياء بطرق قابلة للتفسير. ومع ذلك، فإن هذه الطرق محدودة عند استخدامها مع مجموعات بيانات محاكاة وحقيقية ذات تعقيد بصري محدود. بالإضافة إلى ذلك، يتم استنتاج تمثيلات الأشياء غالبًا باستخدام شبكات النيورونات المتكررة (RNNs) التي لا تناسب الصور الكبيرة جيدًا، أو من خلال التحسين التكراري الذي يتجنب فرض ترتيب غير طبيعي على الأشياء في الصورة ولكنه يتطلب تهيئة عدد ثابت من تمثيلات الأشياء مسبقًا. بخلاف النماذج المعتادة، يقترح هذا البحث نهجًا يستند إلى التضمين حيث يتم تجميع تضمينات البكسل بطريقة قابلة للمفاضلة باستخدام عملية كسر العصا العشوائية. مثل التحسين التكراري، يؤدي هذا الإجراء أيضًا إلى تمثيلات أشياء مرتبة عشوائيًا، ولكن بدون الحاجة إلى تهيئة عدد ثابت من المجموعات مسبقًا. يتم استخدام هذا للتطوير نموذج جديد، GENESIS-v2، يمكنه استنتاج عدد متغير من تمثيلات الأشياء دون استخدام شبكات النيورونات المتكررة أو التحسين التكراري. نوضح أن GENESIS-v2 يؤدي بشكل قوي بالمقارنة مع الأسس الحديثة فيما يتعلق بتقسيم الصور دون إشراف وإنشاء مشاهد مركزة حول الأشياء على مجموعات البيانات المحاكاة المعروفة وكذلك على مجموعات البيانات الحقيقية الأكثر تعقيدًا.