الغوص في كشف التوزيعات الخارجة عن التوزيع مع تمثيلات الرؤية واللغة

التعرف على العينات التي تقع خارج التوزيع (OOD) يُعد أمرًا بالغ الأهمية لأنظمة التعلم الآلي التي تُستخدم في العالم المفتوح. تُعتمد معظم طرق كشف OOD على وسيلة واحدة فقط (مثل الرؤية أو اللغة فقط)، مما يترك المعلومات الغنية المُحتَمَلة في التمثيلات متعددة الوسائط غير مستغلة. مستلهمين من النجاح الأخير للتدريب المسبق على الصور واللغة، يُعدّ هذا البحث تطويرًا في مجال كشف OOD من النمط الأحادي إلى النمط متعدد الوسائط. وبشكل خاص، نقترح طريقة "التوافق الأقصى للمفاهيم" (MCM)، وهي طريقة فعّالة وسهلة التحقيق للكشف عن OOD بدون تدريب (zero-shot)، تعتمد على محاذاة الميزات البصرية مع المفاهيم النصية. كما نقدّم تحليلًا متعمقًا ورؤى نظرية لفهم فعالية MCM. وتُظهر التجارب الواسعة أداءً متفوّقًا لـ MCM في مجموعة واسعة من المهام الواقعية. وتفوق MCM التي تعتمد على الميزات متعددة الوسائط (البصرية واللغوية) على النموذج الأساسي الذي يعتمد فقط على الميزات البصرية في مهمة صعبة للكشف عن OOD، حيث تُظهر فئةً ذات معاني مشابهة، بنسبة 13.1% (AUROC). يمكن الوصول إلى الكود عبر الرابط: https://github.com/deeplearning-wisc/MCM.