تحسين التعرف على الصور من خلال استرجاع البيانات من مجموعات صور ونصوص ذات نطاق واسع على الويب

أصبحت النماذج المُعززة بالاسترجاع شائعةً بشكل متزايد في المهام المرئية الحاسوبية بعد نجاحها الأخير في المشكلات المتعلقة باللغة الطبيعية (NLP). والهدف هو تعزيز قدرات التعرف لدى النموذج من خلال استرجاع أمثلة مشابهة للإدخال البصري من مجموعة ذاكرة خارجية. في هذه الدراسة، نقدّم وحدة ذاكرة تعتمد على الانتباه، والتي تتعلّم أهمية كل مثال مسترجع من الذاكرة. مقارنةً بالأساليب الحالية، تُزيل طريقة عملنا تأثير الأمثلة المسترجعة غير ذات الصلة، وتحتفظ فقط بالتي تكون مفيدة للسؤال المدخل. كما قمنا بدراسة شاملة لطرق مختلفة لبناء مجموعة البيانات الذاكرة. تُظهر تجاربنا فائدة استخدام مجموعة بيانات ذاكرة ضخمة بحجم 1 مليار زوج من الصور والنصوص، وتجسّد أداء تمثيلات ذاكرة مختلفة. وتم تقييم طريقة عملنا في ثلاث مهام تصنيف مختلفة، وهي التعرف على التوزيعات الطويلة الذيل (long-tailed recognition)، والتعلم مع العلامات المُشوّشة (learning with noisy labels)، والتصنيف الدقيق (fine-grained classification)، ونُظهر أننا نحقق دقةً من الدرجة الأولى (state-of-the-art) على مجموعات بيانات ImageNet-LT وPlaces-LT وWebvision.