تجميع الصور بتعزيز تمييزي باستخدام مُشفِّر التحويل الكامل

تتبع الطرق التقليدية للتجميع الصور نهجًا من خطوتين، يتم فيه تعلم الخصائص والتجميع بشكل متتابع. ومع ذلك، أظهرت النتائج البحثية الحديثة أن دمج المرحلتين المنفصلتين في إطار موحد وتدريبهما معًا يمكن أن يؤدي إلى أداء أفضل. في هذا البحث، نقدم أولاً الترميزات التلقائية بالكامل القائمة على الشبكات العصبية التلافيفية لتعلم خصائص الصور، ثم نقترح إطار تجميع موحد لتعلم تمثيلات الصور ومراكز التجمع بشكل مشترك بناءً على ترميز تلقائي بالكامل ونقاط $k$-means اللينة (soft $k$-means). في المراحل الأولى من إجراء التعلم، قد لا تكون التمثيلات المستخرجة من الترميز التلقائي مميزة بما يكفي للمرحلة اللاحقة من التجميع. نعالج هذه المشكلة بتبني توزيع تمييزي معزز، حيث يتم تسليط الضوء على التعيينات ذات النقاط العالية وتقليل أهمية تلك ذات النقاط المنخفضة. مع تمييز تدريجي معزز، يتم تمييز نقاط تعيين التجميع وتوسيع درجة نقائها. أظهرت التجارب على عدة مجموعات بيانات مرجعية للرؤية أن طرقنا يمكن أن تحقق أداءً رائدًا في المجال (state-of-the-art).