HyperAIHyperAI
منذ 2 أشهر

تكوين النص والصورة لاسترجاع الصور - رحلة تجريبية تجريبية

Nam Vo; Lu Jiang; Chen Sun; Kevin Murphy; Li-Jia Li; Li Fei-Fei; James Hays
تكوين النص والصورة لاسترجاع الصور - رحلة تجريبية تجريبية
الملخص

في هذه الورقة، ندرس مهمة استرجاع الصور، حيث يتم تحديد الاستعلام المدخل على شكل صورة بالإضافة إلى بعض النصوص التي تصف التعديلات المرغوبة في الصورة المدخلة. على سبيل المثال، قد نقدم صورة لبرج إيفل ونطلب من النظام العثور على صور مماثلة بصرياً ولكن تم تعديلها بطرق صغيرة، مثل التقاطها ليلاً بدلاً من النهار. لمعالجة هذه المهمة، نتعلم مقياس تشابه بين صورة الهدف وصورة المصدر بالإضافة إلى النص المصدر، وهو دالة تضمين وتجميع بحيث تكون خصائص صورة الهدف قريبة من خصائص تركيب الصورة والنص المصدر. نقترح طريقة جديدة لدمج الصور والنصوص باستخدام هذه الدالة المصممة لمهمة الاسترجاع. نظهر أن هذا الأسلوب يتفوق على الأساليب الموجودة في ثلاثة مجموعات بيانات مختلفة، وهي Fashion-200k و MIT-States ومجموعة بيانات اصطناعية جديدة أنشأناها بناءً على CLEVR (CLEVR). كما نظهر أن أسلوبنا يمكن استخدامه لتقييم الاستعلامات المدخلة بالإضافة إلى استرجاع الصور.