التعلم الفرعي متعدد الوسائط لاسترجاع الصور الدقيق القائم على الرسوم التخطيطية

استرجاع الصور بناءً على الرسومات (SBIR) يعتبر تحديًا بسبب الفجوة المجالية المتأصلة بين الرسمة والصورة الفوتوغرافية. بالمقارنة مع التمثيل الدقيق للصور البكسلية، فإن الرسومات هي تمثيلات رمزية عالم الواقع ذات طابع شديد التجريد. لذلك، فإن مطابقة الرسمة والصورة مباشرة باستخدام المؤشرات البصرية من المستوى المنخفض غير كافية، نظرًا لصعوبة إنشاء فضاء مشترك من المستوى المنخفض يعبر بشكل دلالي عن هذين النمطيْن. لا تتعامل معظم الدراسات الحالية في مجال SBIR مباشرة مع هذه المشكلة عبر النمط. وهذا يحثنا بشكل طبيعي على استكشاف فعالية طرق الاسترجاع عبر النمط في SBIR، والتي تم تطبيقها بنجاح في مطابقة الصور والنصوص. في هذا البحث، نقدم ونقارن سلسلة من أحدث طرق تعلم الفضاء عبر النمط ونبين أدائها على مجموعتي بيانات SBIR الدقيقتين اللتين تم إطلاقهما مؤخرًا. من خلال فحص شامل للنتائج التجريبية، قدمنا دليلًا على أن تعلم الفضاء يمكن أن يُشكل بفعالية الفجوة المجالية بين الرسمة والصورة. بالإضافة إلى ذلك، استخلصنا بعض الأفكار الرئيسية التي يمكن أن تقود البحث المستقبلي.关键词汇解释:- Sketch-based image retrieval (SBIR): استرجاع الصور بناءً على الرسومات- Domain-gap: الفجوة المجالية- Iconic renderings: التمثيلات الرمزية- Low-level visual clues: المؤشرات البصرية من المستوى المنخفض- Cross-modal problem: المشكلة عبر النمط- Subspace learning: تعلم الفضاء