HyperAIHyperAI
منذ 2 أشهر

تعلم النماذج البصرية n-grams من بيانات الويب

Ang Li; Allan Jabri; Armand Joulin; Laurens van der Maaten
تعلم النماذج البصرية n-grams من بيانات الويب
الملخص

أنظمة التعرف على الصور في العالم الحقيقي تحتاج إلى التعرف على عشرات الآلاف من الفئات التي تشكل مجموعة متنوعة من المفاهيم البصرية. نظرًا لعدم إمكانية استخدام الطريقة التقليدية التي تتطلب تسمية آلاف الصور لكل فئة للتدريب في مثل هذا السيناريو، يتم اللجوء إلى استخدام البيانات المشرف عليها بشكل ويب (webly supervised data). يبحث هذا البحث في تدريب أنظمة التعرف على الصور باستخدام أعداد كبيرة من الصور والتعليقات المرتبطة بها من قبل المستخدمين. وبشكل خاص، نطور نماذج الن-جرام البصريّة التي يمكنها التنبؤ بعبارات عشوائية ذات صلة بمحتوى الصورة. تكون نماذج الن-جرام البصرية لدينا شبكات تلافيفية متقدمة (feed-forward convolutional networks) تم تدريبها باستخدام دوال خسارة جديدة مستوحاة من نماذج الن-جرام الشائعة الاستخدام في نمذجة اللغة. نوضح فوائد نموذجنا في التنبؤ بالعبارات، واسترجاع الصور بناءً على العبارات، وربط الصور بالعناوين، والنقل بدون تصوير (zero-shot transfer).

تعلم النماذج البصرية n-grams من بيانات الويب | أحدث الأوراق البحثية | HyperAI