مزيج من عدة وصفيات عالمية لاسترجاع الصور

دراسات حديثة في مجال استرجاع الصور أظهرت أن دمج نماذج مختلفة وجمع موصفات عالمية متعددة يؤدي إلى تحسين الأداء. ومع ذلك، فإن تدريب نماذج مختلفة للدمج ليس فقط صعبًا ولكنه أيضًا غير فعال من حيث الوقت والذاكرة. في هذا البحث، نقترح إطار عمل جديد يستغل موصفات عالمية متعددة للحصول على تأثير الدمج بينما يمكن تدريبه بطريقة شاملة من البداية إلى النهاية (end-to-end). الإطار المقترح مرنة وقابل للتوسيع بواسطة الموصف العالمي، العمود الفقري لشبكة الشبكات العصبية المُعمَّقة (CNN)، الخسارة، والبيانات. بالإضافة إلى ذلك، ندرس فعالية جمع موصفات عالمية متعددة من خلال التحليل الكمي والنوعي. تُظهِر تجاربنا الواسعة أن الموصف المجمع يتفوق على الموصف العالمي الواحد، حيث يمكنه الاستفادة من خصائص ميزات مختلفة. في التقييم المرجعي، يحقق الإطار المقترح أفضل الأداء الحالي على مجموعات البيانات CARS196، CUB200-2011، In-shop Clothes، وStanford Online Products في مهام استرجاع الصور. إن تنفيذ نموذجنا والنماذج المدربة مسبقًا متاحة للجمهور بشكل عام.