HyperAIHyperAI
منذ 17 أيام

على الفعالية غير المعقولة للمركزات في استرجاع الصور

Mikolaj Wieczorek, Barbara Rychalska, Jacek Dabrowski
على الفعالية غير المعقولة للمركزات في استرجاع الصور
الملخص

يتكوّن مهام استرجاع الصور من إيجاد صور مشابهة لصورة استعلام من مجموعة صور مُجمّعة (قاعدة بيانات). تُستخدم هذه الأنظمة في تطبيقات متنوعة، مثل التعرف على الأشخاص (ReID) أو البحث البصري عن المنتجات. وعلى الرغم من التطور المستمر في نماذج الاسترجاع، تبقى هذه المهمة تحديًا كبيرًا، وذلك أساسًا بسبب التباين الكبير داخل الفئة الناتج عن التغيرات في زاوية الرؤية والإضاءة أو الفوضى الخلفية أو التعتيم، في حين قد يكون التباين بين الفئات نسبيًا منخفضًا. يركّز جزء كبير من الأبحاث الحالية على إنشاء ميزات أكثر مرونة وتعديل دوال الهدف، غالبًا بناءً على خسارة ثلاثية (Triplet Loss). وتجرب بعض الدراسات استخدام تمثيل مركز الفئة (المركزية أو المرجعية) لتقليل المشكلات المتعلقة بسرعة الحساب وتعقيد استخراج العينات الصعبة المستخدمة مع خسارة ثلاثية. ومع ذلك، تُستخدم هذه النماذج فقط أثناء التدريب ثم تُحذف أثناء مرحلة الاسترجاع. في هذا البحث، نقترح استخدام تمثيل المركزية المتوسطة (mean centroid) سواء أثناء التدريب أو الاسترجاع. يُعد هذا التمثيل المجمّع أكثر مقاومة للقيم الشاذة، ويضمن ميزات أكثر استقرارًا. وبما أن كل فئة تمثل بتمثيل واحد فقط – أي مركز الفئة – فإن زمن الاسترجاع ومتطلبات التخزين ينخفضان بشكل كبير. كما أن تجميع عدة تمثيلات يؤدي إلى تقليل كبير في حجم الفضاء البحثي، وذلك بخفض عدد المتجهات المرشحة، مما يجعل هذا الأسلوب مناسبًا جدًا للتطبيقات في البيئات الإنتاجية. أجرينا تجارب شاملة على مجموعتي بيانات لـ ReID وـ Fashion Retrieval، وأظهرت النتائج فعالية طريقة الاسترجاع المقترحة، حيث تفوقت على أحدث النماذج المطورة. ونُقدّم التدريب والاسترجاع باستخدام المركزية كطريقة واقعية وفعّالة في تطبيقات استرجاع الأزياء واسترجاع الأشخاص.