إعادة ترتيب مجموعة المرشحين لاسترجاع الصور المركبة باستخدام مُشفِّر متعدد الوسائط ثنائي

استرجاع الصور المركبة يهدف إلى العثور على صورة تتطابق بشكل أفضل مع استفسار متعدد الأوضاع يقدمه المستخدم، والذي يتكون من زوج من الصورة المرجعية والنص. الطرق الحالية غالباً ما تقوم بحساب مسبقة لمتجهات الصور على كامل السجل ومقارنتها بمتجه الصورة المرجعية الذي تم تعديله بواسطة نص الاستفسار في وقت الاختبار. رغم أن هذا النهج فعال للغاية في وقت الاختبار حيث يمكن استخدام المسافات المتجهية السريعة لتقييم المرشحين، فإن تعديل متجه الصورة المرجعية بناءً على وصف نصي قصير فقط قد يكون صعباً، خاصة بدون مرشحين محتملين.بدلاً من ذلك، يمكن اتباع نهج بديل يسمح بالتفاعلات بين الاستفسار وكل مرشح محتمل، أي الثلاثيات (الصورة المرجعية-النص-المرشح)، واختيار الأفضل من مجموعة كاملة. رغم أن هذا النهج أكثر تمييزًا، إلا أن التكلفة الحسابية تكون ممنوعة للقواعد البيانات الكبيرة نظرًا لعدم إمكانية حساب مسبق لمتجهات المرشحين. نقترح دمج فوائد كلا النهجين باستخدام نموذج ذو مرحلتين. المرحلة الأولى لدينا تتبنى المقاييس التقليدية للمسافة المتجهية وتقوم بتصفية سريعة بين المرشحين. في حين تستخدم المرحلة الثانية هندسة مزدوجة الترميز، والتي تركز بشكل فعال على الثلاثي المدخل (الصورة المرجعية-النص-المرشح) وإعادة تصنيف المرشحين.كلا المرحلتين تستفيدان من شبكة تم تدريبها مسبقًا على الرؤيا واللغة، والتي أثبتت فائدتها في العديد من المهام الثانوية. طرقنا تتفوق باستمرار على الأساليب الأكثر حداثة في مقاييس القياس القياسية للمهمة. يمكن الوصول إلى تنفيذنا عبر الرابط:https://github.com/Cuberick-Orion/Candidate-Reranking-CIR.