مجموعة بيانات Google Landmarks v2 – معيار واسع النطاق للتمييز والاسترجاع على مستوى المثيل

بينما تتطور تقنيات استرجاع الصور وتمييز المثيلات بسرعة كبيرة، هناك حاجة ماسة إلى مجموعات بيانات صعبة القياس بدقة لأداء هذه التقنيات، مع تقديم تحديات جديدة ذات صلة بالتطبيقات العملية. نقدم مجموعة بيانات جوجل للمناظر الطبيعية والصناعية v2 (GLDv2)، وهي معيار جديد لتمييز المثيلات الدقيقة على نطاق واسع واسترجاع الصور في مجال المناظر الطبيعية والصناعية التي صنعها الإنسان. تُعدّ GLDv2 أكبر مجموعة بيانات من هذا النوع حتى الآن، بفارق كبير، حيث تتضمن أكثر من 5 ملايين صورة و200 ألف تسمية فردية مختلفة للمثيلات. يتكوّن مجموعة الاختبار الخاصة بها من 118 ألف صورة، مع تسميات حقيقية (ground truth) لمهام الاسترجاع والتمييز. وقد استغرقت عملية إنشاء التسميات الحقيقية أكثر من 800 ساعة من العمل البشري. تميز مجموعتنا الجديدة بخصائص صعبة مستوحاة من التطبيقات الواقعية، والتي لم تُؤخذ بعين الاعتبار في المجموعات السابقة: توزيع فئات متطرف التوسع (Long-tailed)، ونسبة كبيرة من الصور في مجموعة الاختبار خارج نطاق البيانات (out-of-domain)، وتباين كبير داخل الفئة (intra-class variability). تم جمع صور المجموعة من ويكي ميديا كومونز، وهي أكبر مكتبة مجمعة جماعيًا للصور المتعلقة بالمناظر الطبيعية في العالم. نقدّم نتائج أساسية (baselines) لكل من مهام التمييز والاسترجاع باستخدام أحدث الأساليب، بالإضافة إلى نتائج تنافسية من مسابقة عامة. كما نُظهر مدى ملاءمة المجموعة لتعلم الانتقال (transfer learning) من خلال إثبات أن التمثيلات الصورية (image embeddings) التي تم تدريبها على هذه المجموعة تحقق أداءً تنافسيًا في استرجاع الصور على مجموعات بيانات مستقلة. تتوفر صور المجموعة، والتسميات الحقيقية، وشفرة تقييم الأداء (metric scoring code) عبر الرابط التالي: https://github.com/cvdfoundation/google-landmark.