HyperAIHyperAI
منذ 2 أشهر

تعلم العلاقات البصرية بإشراف ضعيف

Julia Peyre; Ivan Laptev; Cordelia Schmid; Josef Sivic
تعلم العلاقات البصرية بإشراف ضعيف
الملخص

يقدم هذا البحث نهجًا جديدًا لنمذجة العلاقات البصرية بين أزواج الأشياء. نطلق على العلاقة ثلاثية الشكل (الموضوع، الفعل، المفعول) حيث يكون الفعل غالبًا حرف جر (مثل "تحت"، "أمام") أو فعل (مثل "يحمل"، "يركب") يربط بين زوج من الأشياء (الموضوع، المفعول). يعتبر تعلم مثل هذه العلاقات تحديًا بسبب اختلاف التكوينات المكانية والمظاهر للأشياء اعتمادًا على العلاقة التي تحدث فيها. تحدي آخر رئيسي يأتي من صعوبة الحصول على التسميات، خاصة عند مستوى الصندوق، لكل الثلاثيات المحتملة، مما يجعل التعلم والتقييم صعبين. تتضمن إسهامات هذا البحث ثلاثة جوانب. أولاً، نصمم خصائص بصرية قوية ومرونة ترميز مظهر وتكوين مكانية لأزواج الأشياء. ثانياً، نقترح نموذج تجميع تمييزي تحت الإشراف الضعيف لتعلم العلاقات باستخدام التسميات فقط على مستوى الصورة. ثالثاً، نقدم مجموعة بيانات جديدة وصعبة للعلاقات غير العادية (UnRel) مع تسميات شاملة، مما يمكن من تقييم دقيق لاسترجاع العلاقات البصرية. نثبت بالتجارب أن النموذج الخاص بنا يؤدي إلى أفضل النتائج في مجموعة البيانات للعلاقات البصرية مع تحسين كبير في الأداء على العلاقات التي لم يتم رؤيتها سابقًا (التعلم بدون أمثلة)، ونؤكد هذه الملاحظة على مجموعة البيانات الجديدة UnRel التي قدمناها.