تعلم التكويني لاستعلام الصورة النصي لاسترجاع الصور

في هذه الورقة، نستكشف مشكلة استرجاع الصور من قاعدة بيانات بناءً على استعلام متعدد الوسائط (صورة-نص). بصفة خاصة، يحث النص الاستعلامي على بعض التعديلات في صورة الاستعلام، والهدف هو استرجاع الصور التي تحتوي على التعديلات المرغوبة. مثال على ذلك، مستخدم لمنصة التجارة الإلكترونية يرغب في شراء فستان يبدو مشابهًا لفستان صديقتها، ولكن الفستان يجب أن يكون أبيض اللون مع حزام ريبون. في هذه الحالة، نرغب في أن يقوم الخوارزمية باسترجاع بعض الفساتين مع التعديلات المرغوبة في صورة الاستعلام. نقترح نموذجًا يستند إلى الترميز الذاتي، وهو ComposeAE (Compose Autoencoder)، لتعلم تركيب استعلام الصورة والنص لاسترجاع الصور. نعتمد على منهجية تعلم المقاييس العميقة ونتعلم مقاييس تقرب تركيب صورة المصدر واستعلام النص إلى الصور المستهدفة. كما نقترح قيد التناظر الدوار على المشكلة التحسينية. يتمكن منهجنا من تجاوز أفضل الطُرق الحالية TIRG \cite{TIRG} في ثلاثة مجموعات بيانات معيارية وهي: MIT-States، Fashion200k و Fashion IQ. للتأكد من المقارنة العادلة، قدمنا خطوط أساس قوية من خلال تعزيز طريقة TIRG. ولضمان إمكانية إعادة إنتاج النتائج، ننشر كودنا هنا: \url{https://github.com/ecom-research/ComposeAE}.