استرجاع الصور الأنيقة مع التوافقيّة متعددة الحُدود

يهدف مهام استرجاع الصور الأزياء إلى البحث عن عناصر ملابس ذات صلة بصورة استعلامية من مجموعة صور (غاليري). وقد ركّزت الطرق السابقة على تصميم دوال خسارة تعتمد على المسافة، حيث تُجذب الأزواج ذات الصلة لتكون قريبة من بعضها، وتُبعِد الصور غير ذات الصلة عن بعضها. ومع ذلك، تتجاهل هذه الطرق السمات الدقيقة (مثل: حافة الرقبة، وحافة الأكمام) في صور الملابس. في هذا البحث، نقترح طريقة جديدة لاسترجاع الصور الأزياء تُستخدَم فيها كل من السمات الشاملة والدقيقة، وتُسمّى التماثل متعدد الحُجُم (MGA). وبشكل محدد، نصمم مُجمّعًا دقيقًا (FGA) لالتقاط ودمج الأنماط التفصيلية. ثم نقترح طريقة تُسمّى التماثل المُوجّه بالانتباه (ATA) لتماثل ميزات الصور على مستويات متعددة من التفصيل بطريقة تبدأ من العام إلى الخاص. ولإثبات فعالية الطريقة المقترحة، أجرينا تجارب على مهام فرعية اثنتين (In-Shop وConsumer2Shop) من مجموعات بيانات الأزياء العامة DeepFashion. وأظهرت النتائج التجريبية أن طريقة MGA تتفوّق على الطرق الأفضل حالياً بنسبة 1.8% و0.6% على التوالي في مقياس R@1 في المهمتين الفرعيتين.