HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التعرف على الصور من خلال استرجاع البيانات من مجموعات صور ونصوص ذات نطاق واسع على الويب

Ahmet Iscen Alireza Fathi Cordelia Schmid

الملخص

أصبحت النماذج المُعززة بالاسترجاع شائعةً بشكل متزايد في المهام المرئية الحاسوبية بعد نجاحها الأخير في المشكلات المتعلقة باللغة الطبيعية (NLP). والهدف هو تعزيز قدرات التعرف لدى النموذج من خلال استرجاع أمثلة مشابهة للإدخال البصري من مجموعة ذاكرة خارجية. في هذه الدراسة، نقدّم وحدة ذاكرة تعتمد على الانتباه، والتي تتعلّم أهمية كل مثال مسترجع من الذاكرة. مقارنةً بالأساليب الحالية، تُزيل طريقة عملنا تأثير الأمثلة المسترجعة غير ذات الصلة، وتحتفظ فقط بالتي تكون مفيدة للسؤال المدخل. كما قمنا بدراسة شاملة لطرق مختلفة لبناء مجموعة البيانات الذاكرة. تُظهر تجاربنا فائدة استخدام مجموعة بيانات ذاكرة ضخمة بحجم 1 مليار زوج من الصور والنصوص، وتجسّد أداء تمثيلات ذاكرة مختلفة. وتم تقييم طريقة عملنا في ثلاث مهام تصنيف مختلفة، وهي التعرف على التوزيعات الطويلة الذيل (long-tailed recognition)، والتعلم مع العلامات المُشوّشة (learning with noisy labels)، والتصنيف الدقيق (fine-grained classification)، ونُظهر أننا نحقق دقةً من الدرجة الأولى (state-of-the-art) على مجموعات بيانات ImageNet-LT وPlaces-LT وWebvision.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp