الهاشينغ المراقب العميق لاسترجاع سريع للصور

في هذه الورقة، نقدم طريقة جديدة للترميز الثنائي لتعلم رموز ثنائية مدمجة لاسترجاع صور فعّال للغاية على مجموعات بيانات ضخمة. وعلى الرغم من أن التغيرات المعقدة في مظهر الصور تظل تحديًا كبيرًا لضمان استرجاع موثوق، إلا أن التقدم الأخير في الشبكات العصبية التلافيفية (CNNs) في تعلم تمثيلات صورية قوية لمهام بصرية متنوعة، يدفعنا إلى اقتراح طريقة جديدة تُسمى التشفير العميق المُرشَّح (DSH) لتعلم رموز ثنائية مدمجة تحافظ على التشابه، وذلك لمعالجة كميات هائلة من البيانات الصورية. وبشكل محدد، نصمم بنية شبكة عصبية تلافيفية تأخذ أزواجًا من الصور (مشابهة/غير مشابهة) كمدخلات تدريب، وتشجع كل مخرج من مخرجات الصور على الاقتراب من القيم المنفصلة (مثل +1 أو -1). لتحقيق ذلك، نصمم دالة خسارة بدقة لتقوية قدرة التمييز في فضاء المخرجات من خلال ترميز المعلومات المُرشَّحة من أزواج الصور المدخلة، وفي الوقت نفسه نفرض تقييدًا على المخرجات ذات القيم الحقيقية لتقريبها إلى القيم المنفصلة المطلوبة. بالنسبة لاسترجاع الصور، يمكن ترميز الصور الاستعلامية الجديدة بسهولة من خلال تمريرها عبر الشبكة، ثم كميّة مخرجات الشبكة إلى تمثيلات ثنائية. أظهرت التجارب الواسعة على مجموعتي بيانات كبيرتي الحجم (CIFAR-10 وNUS-WIDE) أداءً واعدًا لهذه الطريقة مقارنةً بأفضل الطرق الحالية.