تمثيل تعليمي قائمة على الرموز للبحث عن الصور

في استرجاع الصور، أُثبتت فعالية السمات المحلية العميقة التي تُتعلم بطريقة تعتمد على البيانات لتحسين أداء الاسترجاع. ولتحقيق استرجاع فعّال في قواعد بيانات صور ضخمة، اعتمد بعض النهج على كمية السمات المحلية العميقة باستخدام مكتبة رموز كبيرة، ثم مطابقة الصور باستخدام نواة مطابقة مجمعة. ومع ذلك، فإن تعقيد هذه النُهج ليس بسيطًا، ويتميز بحاجته إلى مساحة ذاكرة كبيرة، مما يحد من قدرتها على أداء التعلم والجمع المشترك للسمات. لتكوين تمثيلات عالمية مختصرة مع الحفاظ على القدرة على المطابقة الإقليمية، نقترح إطارًا موحدًا لتعلم تمثيل السمات المحلية والجمع بشكل مشترك. في إطارنا، نستخرج أولًا السمات المحلية العميقة باستخدام الشبكات العصبية التلافيفية (CNNs). ثم نصمم وحدة "مُحَوِّل" (tokenizer) لجمع هذه السمات إلى عدد قليل من الرموز البصرية، حيث يتوافق كل رمز مع نمط بصري معين. وهذا يساعد في إزالة الضوضاء الخلفية، وتحديد المناطق الأكثر تمييزًا في الصورة. بعد ذلك، نُدخل كتلة تحسين (refinement block) لتعزيز الرموز البصرية باستخدام الانتباه الذاتي (self-attention) والانتباه المتبادل (cross-attention). وأخيرًا، نُرَكّب الرموز البصرية المختلفة معًا لتكوين تمثيل عالمي مختصر. يتم تدريب الإطار بالكامل بشكل متسلسل (end-to-end) باستخدام علامات الصورة على مستوى الصورة. أُجريت تجارب واسعة لتقييم النهج المقترح، والذي أظهر تفوقه على أفضل الطرق الحالية على مجموعتي بيانات Revisited Oxford وParis.