تعلم التمثيلات البصرية العميقة من البداية إلى النهاية لاسترجاع الصور

بينما أصبح التعلم العميق مكونًا رئيسيًا في أفضل الأساليب المستخدمة لمهام الرؤية الحاسوبية الكثيرة، فإنه لم ينجح حتى الآن في تحقيق تحسينات مماثلة في استرجاع الصور على مستوى النموذج الفردي. وفي هذا المقال، ندعي أن أسباب النتائج غير المرضية للأساليب العميقة في استرجاع الصور تتمثل في ثلاثة أمور: i) بيانات التدريب الضوضائية، ii) بنية عميقة غير مناسبة، وiii) إجراءات تدريب غير مثلى. نعالج جميع هذه القضايا.أولاً، نستفيد من مجموعة بيانات ضخمة ولكن ضوضائية للمعالم ونطور طريقة تنظيف آلية تنتج مجموعة بيانات تدريب مناسبة للاسترجاع العميق. ثانياً، نعتمد على الوصفة الحديثة R-MAC (R-MAC descriptor)، ونوضح أنها يمكن تفسيرها كبنية عميقة قابلة للتفرقة، ونقدم تعديلات لتعزيزها. أخيراً، نتدرب على هذا الشبكة باستخدام بنية توأم (siamese architecture) تجمع بين ثلاث مسارات باستخدام خسارة الثلاثيات (triplet loss). وفي نهاية عملية التدريب، تقوم البنية المقترحة بإنتاج تمثيل عالمي للصورة بمرور واحد أمامي يكون مناسبًا جدًا لاسترجاع الصور. تظهر التجارب الواسعة أن نهجنا يتفوق بشكل كبير على أساليب الاسترجاع السابقة، بما في ذلك الأساليب المتقدمة التي تعتمد على فهرسة الوصفاء المحليين باهظة الثمن والتحقق المكاني. وعلى مجموعات البيانات Oxford 5k وParis 6k وHolidays، نبلغ بمتوسط دقة 94.7 و96.6 و94.8 على التوالي. كما يمكن ضغط تمثيلاتنا بشدة باستخدام كمية المنتج (product quantization) مع خسارة قليلة في الدقة. للمزيد من المواد,请参阅 www.xrce.xerox.com/Deep-Image-Retrieval.请注意,最后一句中的网站链接包含中文字符,这可能是误植。正确的翻译应该是:للمزيد من المواد، يُرجى زيارة www.xrce.xerox.com/Deep-Image-Retrieval.