ARTEMIS: استرجاع مبني على الانتباه مع مطابقة نصية صريحة وتشابه ضمني

طريقة بديهية للبحث عن الصور هي استخدام استعلامات مكوّنة من صورة مثال ونص مكمل. في حين أن الصورة الأولى توفر سياقًا غنيًا وضمنيًا للبحث، فإن النص الأخير يحدد بشكل صريح سمات جديدة، أو يحدد كيفية تغيير بعض عناصر الصورة المثال لاسترجاع الصورة المستهدفة. تُستخدم في النهج الحالية عادةً تجميع الميزات الخاصة بكل عنصر من عناصر الاستعلام في تمثيل واحد، يمكن حينها مقارنته بتمثيلات الصور المحتملة المستهدفة. يهدف عملنا إلى إضفاء إضاءة جديدة على هذه المهمة من خلال النظر إليها من خلال إطارين مألوفين ومرتبطين: استرجاع الصور من النص، واسترجاع الصور من صورة أخرى. مستلهمين من هذين الإطارين، نستفيد من العلاقة الخاصة التي يمتلكها كل عنصر من عناصر الاستعلام مع الصورة المستهدفة، ونُطوّر آليات انتباه خفيفة الوزن تتيح التوفيق بين النوعين المتكاملين من البيانات. ونختبر منهجنا على عدة معايير استرجاع، باستخدام صورًا ونصوص مُعدّلة حرة مرتبطة بها. ويحقق منهجنا نتائج من الدرجة الأولى دون اللجوء إلى معلومات جانبية، أو ميزات متعددة المستويات، أو تدريب مسبق ثقيل، أو بنى معقدة، كما كان الحال في الدراسات السابقة.