اكتشاف العلاقات البصرية باستخدام الأولويات اللغوية

العلاقات البصرية تلتقط مجموعة متنوعة من التفاعلات بين أزواج الأشياء في الصور (مثل "رجل يركب دراجة" و "رجل يدفع دراجة"). نتيجة لذلك، فإن مجموعة العلاقات الممكنة كبيرة للغاية، ويكون من الصعب الحصول على أمثلة تدريبية كافية لجميع العلاقات الممكنة. بسبب هذا القيد، ركزت الدراسات السابقة في مجال اكتشاف العلاقات البصرية على التنبؤ بعدد قليل فقط من العلاقات. رغم أن معظم العلاقات نادرة الحدوث، إلا أن الأشياء (مثل "رجل" و "دراجة") والعمليات (مثل "يركب" و "يدفع") تحدث بشكل مستقل أكثر تكرارًا. نقترح نموذجًا يستخدم هذه الرؤية لتدريب النماذج البصرية للأشياء والعمليات بشكل منفصل، ثم يدمجها معًا لاحقًا للتنبؤ بعدة علاقات لكل صورة. نحسن على الأعمال السابقة من خلال الاستفادة من الأولويات اللغوية المستمدة من تمثيلات الكلمات الدلالية لتغليظ احتمالية العلاقة المتوقعة. يمكن لنموذجنا التوسع للتنبؤ بآلاف أنواع العلاقات من أمثلة قليلة. بالإضافة إلى ذلك، نحدد مواقع الأشياء في العلاقات المتوقعة كمربعات حددتها الصورة. نثبت أيضًا أن فهم العلاقات يمكن أن يحسن استرجاع الصور القائم على المحتوى.